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Abstract 


This paper analyzes the main problems of the current LLM and proposes specific solutions, 
pointing out the fact that: the expression and computation of the conceptualized structural model 
combined with probability is the key, and provides a brief explanation of the related technology- 
Deep Semantic Model (DSM), and finally enumerates the direction of the subsequent key work. 
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1. Introduction 


Nowadays, the development of LLM has greatly improved the technical level of natural lan- 
guage processing, revealing that AI technology has great capabilities and application prospects, and 
will bring a number of positive impacts to human society, which has already formed a consensus in 


the industry. 


However, in the meanwhile, many critical problems of LLM technology have also been ex- 
posed in the ever-deepening research and application, which have caused obvious obstacles to the 
further enhancement of the technology and the full realization of the application value. There are 
also considerable views in the industry that the current LLM is not the ultimate solution to realize 
AGI. 


Taking a typical representative product ChatGPT as an example, this paper provides an in- 
depth analysis of the main problems of similar LLMs and puts forward fundamental solutions or 


directions. 


This paper also provides a brief introduction to the DSM deep semantic technology, elaborating 
on the key points of its basic theory, model architecture, realization method, and current results. It 
analyzes the model of the technology's solution to the above problems, as well as the model of 
collaboration between the technology and LLM to achieve better technical solutions and products, 


and points out the direction of the subsequent key work. 


It is important to note that the connotations of conceptual terms are difficult to define precisely 
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and are constantly changing. In this paper, LLM refers to the commonly accepted definition in the 
current industry: a model that employs a deep neural network architecture, which is trained by au- 
tomated machine learning on a large amount of corpus and forms a black-box structure containing 
a large number of non-conceptualized connections and parameters, computing on natural language 
in an end-to-end manner. This paper analyzes GPT as an example and points out that most of the 
issues are applicable to other current LLMs, and that a small number of issues may not be applicable 


to some other LLMs, but do not affect the overall conclusions. 


2. Analysis and Resolution of GPT-related Issues 


2.1 Interpretability issue: representation and computation of conceptualization 
structures 


Interpretability can be defined as the ability to explain or present the behavior of a model in 
understandable terms for human. Interpretability should not be just a measure of a system, but a 
goal of system implementation that is as important as functional effectiveness. As people study all 
kinds of sciences to construct interpretable systems, AGI serves to replicate and enhance the ability 
of human thinking, and interpretability is likewise the core goal of AGI. Even by the standard of 
result-only theory, the ability to interpret a system determines the ability to decompose, adjust, and 


control the system, as well as the upper limit of the ultimate functional effect of the system. 


At present, LLM suffers from the problem of poor interpretability, which bottlenecks the fur- 
ther improvement of its capabilities. In addition, the problems of relying on massive data, massive 
repetitive training, and catastrophic obliviousness are essentially a manifestation of this root prob- 


lem. 


The most effective way to solve interpretability problems is conceptualization and structurali- 


zation. 


Conceptualization is to define human-understood concepts as basic elements that make up the 
system. Take GPT3 as an example, 12,288 dimensional vectors are used to express the basic infor- 
mation, which are mainly learned automatically by machines and are not aligned with human-un- 
derstandable concepts. Conceptualization is to define human-understood concepts as basic elements 
that make up the system. Take GPT3 as an example, 12,288 dimensional vectors are used to express 
the basic information, which are mainly learned automatically by machines and are not aligned with 
human-understandable concepts'. Assuming that these 12,288 vector dimensions can be equiva- 
lently converted to another 12,288? human-understandable concepts, the goal of conceptualization 
is achieved to some extent. It is of course desirable to achieve this goal if it can be accomplished by 
automatic bottom-up machine learning alone, but if not, then a combination of top-down human 


design is of great necessity. 


1 Each vector dimension is actually a mixture of multiple concepts. Regardless of the method used, if interpret- 


ability is achieved, it also means that these vectors are disassembled and reorganized and aligned with human-un- 
derstood concepts. At this point it becomes inevitable to perform transformation optimization. 


2 Theoretically, it is certainly possible to accomplish an equivalent transformation with another 12,288 dimen- 


sions. But the probability is that it can be optimized to fewer dimensions. 
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Conceptualization is accompanied by structuralization. In the example of GPT, the connections 
that compute vectors are also non-conceptualized and have only probabilistic computational param- 
eters without semantic information. Conceptualization and semanticization of many connections is 


also important to form a conceptual structure that combines description and computation. 


At the same time, Transformer is fully connected, which is very suitable for the initial first 
exhaustive discovery of all possible knowledge. However, the fixed structure also means that after 
effective knowledge is learned, a large amount of invalid knowledge with probability parameter 
close to 0 still takes up space and computational resources. Conceptualization and structuralization 


also involves pruning, merging and optimizing concepts and structures. 


The statement "Intelligence is compression" is correct. The nature of the human mind is to 
process a nearly infinite amount of information with a finite brain capacity. The essence of human 
thinking is to process nearly infinite information with a finite brain capacity, and the key still lies in 
specific methods. Whereas combination and generalization are efficient methods for compressing 
information. More adequate conceptualization and structuralization will increase the compression 
rate of effective knowledge to a higher level, and explanatory and its related problems will no longer 


be a problem. 


At this point, it is very important to work on constructing a system of wide-area base concepts 
(including conceptualization vectors) and structural systems. This can be used to explain LLM and 
compensate for its lack of semantic structure, and serve as a basis for the development of more 


powerful AI systems. 


2.2. Incomplete algorithmic system issue: designing complete algorithmic sys- 
tems 


The incomplete algorithmic system is also one of the more prominent fundamental theoretical 


flaws of GPT, to which many difficult problems and results can be attributed. 


With the viewpoint of DCN Dynamic Cognitive Networks!"!!, the algorithms of understanding, 
querying, reasoning, generating, and learning (Fig. 1) are important basic algorithms for realizing 
AGI, which are not interchangeable with each other, and can be combined to solve various compu- 


tational tasks in a complete way. 
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Fig.1: Typical Algorithm Schematic Diagram 


GPT mainly uses the generalized generation algorithm!', which refers to a known number of 


characters to calculate the next character (strictly speaking, Token). The basic principle can be sum- 
marized as: 


1. The vector of the target character is computed separately from the vector of each character 


in the known character sequence. 


2. Each known character is superimposed on the target vector calculated for the target char- 
acter. 


3. The superimposed vectors of the target character are compared with a character dictionary 
and the best match is taken as the result. 


This algorithm works well for generative tasks, but lacks key capabilities such as complete 


structured hierarchy computation and probabilistic collapse computation, and is not an equivalent 


1 Note: Generation in DCN refers specifically to the top-down computation of the derived network from the 
base network in set dimension, while generation in GPT refers generally to the computation of the next character 
from the previously known string (which actually corresponds to "growth" in DCN). To avoid confusion, the for- 
mer is referred to as "narrow generation" and the latter is referred to as "generalized generation" when necessary. 
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replacement for other algorithms. Forced substitution cannot make the effect of various tasks con- 
verge to the ideal state. The fundamental solution is to design a more complete algorithmic system, 


which should be designed around the above conceptualized structure. 


A selection of issues are analyzed more specifically below. 
2.3. Issues such as hallucination: choosing the right algorithm 


Generally speaking, LLM computations that produce results that do not meet people's expec- 
tations and standards are collectively referred to as hallucinations, but different hallucinations have 
different causes. Here we mainly discuss the most essential type of hallucination, i.e., generative 
hallucination, which is summarized by the technical principle of "probability loss caused by the 
generation of the base network to the derived network" and the problem of " probability as neces- 


sity". The details are analyzed as follows: 
@ The difference between comprehension, generation, and equivalence calculation 


First, the rules for comprehension, generation, and equivalence of these computations are dif- 
ferent. In the system of DCN, these algorithms rely on [belong to relation] and [equivalence relation] 
for implementation. We first assume that some knowledge [Lin Daiyu belongs to a person], [Jia 
Zheng belongs to a person], [Granny Liu belongs to a person], and [People insulting people] already 
exists in the system! (note: where the probability of [People insulting people] being factual is < 1, 
because an insulting event between any two people is probable, but not factual). Hence the algo- 


rithms are as follows: 


Comprehension: understanding from [Lin Daiyu insulting Jia Zheng] to [People insulting peo- 


ple], there is no loss of probability in the bottom-up calculation. 


Equivalence: copying equivalently from [Lin Daiyu insulting Jia Zheng] to [Lin Daiyu insult- 


ing Jia Zheng], which is completely equivalent. 


Generation: deriving [Lin Daiyu insulting Jia Zheng]? from [People insulting people]. The 
former is the base model and the latter is the derived model, and the concepts corresponding to the 
two patterns have the [belong to] relation respectively. The derived model will first directly inherit 
the parameters of the base model including the probabilities, i.e., the factual probabilities < 1. Nar- 
row generation is a top-down computation on the ensemble dimension, and direct generation out of 
nowhere will also result in generating probability losses. Unless more information is incorporated 


to influence and adjust the new probabilities. 


Learning: When acquiring factual knowledge such as "Lin Daiyu insulting Granny Liu" for 
learning, the first step is to understand it, construct the new knowledge [Lin Daiyu insulting Granny 
Liu] and establish a derivative relationship with [People insulting people], and set the factual prob- 


ability reloading = 1, so that the new knowledge is deposited into the system to complete the learning 


1 Note: In the novel [Dream of the Red Mansion], it happened that the main character Lin Daiyu insulted 
Granny Liu, but there was no such thing as Lin Daiyu insulting Jia Zheng. 
2 This paper has repeatedly referred to the concepts of knowledge hierarchy, knowledge and data. Here is a typ- 


ical example: "people insulting people" is a higher-level knowledge, and "Lin Daiyu insulting Jia Zheng" is a 
lower-level knowledge, i.e., closer to data. In this way, the knowledge level or conceptual level has a clear crite- 
rion and can be parameterized. 
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and memorization. Obviously, the knowledge learned from the reliable information source is dif- 


ferent from the information generated by the system itself, especially in the factorial probability. 


Overall, the relations of belong to, derivation, and equivalence have very different semantics. 
If expressed in terms of probability, it is also necessary to distinguish between the different direc- 
tions of the projected probability of the existence of <1 and =1 of the essence of the difference. 
There is only one one-way probability calculation in GPT, and the result is based only on the relative 
size of the probability, and the underlying algorithm is fundamentally difficult to realize the task of 
calculating probability=1. 


@ Difference between generation task and query task 


Whereas humans propose tasks for different purposes. Understanding, querying, and generat- 
ing are completely different types of tasks, with different criteria for determining the correctness of 


the results, which are completely clear in themselves. 


The [generation] task follows the criterion of probabilistic possibility and does not require 
probability=1 factuality. The [generation] algorithm should be used, e.g., [make up a story about " 
insulting "], then the knowledge of [people insulting people] can be used to derive an infinite number 
of outcomes such as [Zhang San insulting Li Si] [Lin Daiyu insulting Zhang San] [Lin Daiyu in- 
sulting Jia Zheng]...etc., all of which satisfy the requirements of the task. 


The generalized generation algorithm of GPT is well suited for this narrow generation task!. 
Since generalized knowledge like [people insulting people] is obtained through training and learning, 
the use of vector computation to generate derivatives of this knowledge can produce a variety of 


results similar to those described above to satisfy the requirements of the task. 


The [query] task, on the other hand, follows probabilistic determinism, i.e., probability=1 fac- 
tuality. Correct processing requires the use of the [query] algorithm, which is the pattern matching 


algorithm. 


For example, for the task of [querying an " insulting" story], the correct approach should be to 
use the question as a template for pattern matching on factual knowledge. If the match is successful, 
the factual knowledge obtained, e.g., [Lin Daiyu insulting Granny Liu], will be copied and output 
equivalently. If the result is not satisfied, the answer "the query cannot match the result" should be 
given. The results calculated in this way are theoretically completely stable and reliable, and prob- 


lems can be accurately traced and corrected. 


(In the example here, the knowledge of [people insulting people] in the system will also get 
matched, but this one is high in the knowledge hierarchy and has to be excluded from the results. 


This processing is also based on a strict theoretical foundation.) 


And for GPT, it is still executed with the same generation algorithm. If the sentence [Lin Daiyu 
insulting Jia Zheng] is generated based on the same aforementioned sentence [people insulting peo- 


ple], the result obtained with the generation task does not meet the requirements of the query task. 


1 The existence of multiple correct outcomes (people: Jia Zheng, Lin Daiyu, Jia Baoyu...) for top-down narrow 
generation on the set dimension does not require a uniquely deterministic outcome and is more fault-tolerant. This 
is an important reason why various generative Als are currently enjoying greater success. 
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This is the root cause of this typical hallucination. 


With the training, GPT affects the probability of selecting different knowledge as the [base 
pattern] for generation based on the task vocabulary such as [query] [make up], so that the 
knowledge [Lin Daiyu insulting Granny Liu] has a higher probability of selection than the 
knowledge [people insulting people] as the [base pattern] for [generation]. From a certain point of 
view, this way is differentiating the tasks, but this probability adjustment lacks the support of rigor- 
ous computational rules, and the probability calculations and choices for different knowledge lack 
reliability (even treating the user's question itself as a [base pattern] and deriving it directly as an 
answer, which often happens in practice) still results in various phantom errors), remaining a source 


of all kinds of hallucination errors. 


In addition, the query task requires that every parameter contained in the multi-parameter ques- 
tion pattern is matched by the knowledge pattern, and involves performing the [And] computation 
to ensure the wholeness of the pattern, which is difficult to satisfy with the only basic algorithm of 


the GPT, the generation algorithm. 


In real-world scenarios, a task will have multiple subtasks nested within it. These subtasks are 
of different types and will not all have explicit task indicator keywords. For example, a generation 
task may have multiple parameters nested within it that require factual queries. Without in-depth 
semantic analysis and then choosing the right algorithm to process them separately, it will be diffi- 
cult to avoid the generation of hallucinations. Moreover, the hallucination information is likely to 


be so hidden that the user will not be able to detect it, which may lead to more serious consequences. 
As a result, the solution is to work both ways: 


@ Accurately differentiate the types of different tasks and subtasks through deep semantic 


analysis. 
@ Select the correct basic algorithm for different task types. 


2.4 Issues such as computation of expressions: structured hierarchical expres- 
sions and computations 


Hierarchical representation and computation of knowledge is very important. The hierarchical 
structure of images is remarkable, and the semantics of language is entirely structured in layers - 
although such layers do not always correspond exactly to the organization of language. GhatGPT, 


on the other hand, lacks the ability to represent and compute rigorously structured hierarchies. 


At present, the algorithm of ChatGPT itself cannot solve a simple expression computation. It 
may be able to correctly answer the expression 35+62=97, but the essence of the implementation is 
to completely match the sentence 35+62=97 in a huge corpus, not a real mathematical calculation. 
So if you ask " 23456789+9876543=how much", there is a high probability that you will not get the 


correct result!. 


1 The fact that GPT can invoke plug-ins to solve mathematical computation problems does not address the 


shortcomings that exist on their own. If basic capabilities such as expression computation cannot be built into the 
model, the level of integrated intelligence to perform composite tasks will be extremely limited. 


The fundamental problem here is that the GPT lacks a true hierarchical representation of infor- 
mation!. "23456789+9876543" is obviously composed of two levels and two numbers as a whole 
at the lower level, to participate in the calculation of addition at the higher level. Instead, GPT 
always disassembles these characters and looks at a flat one-dimensional sequence of characters, 
each of which is involved in the probability calculation of the next character. In this case the prob- 


ability calculation is simaply impossible to get the correct result. 


As we can see from this example, GPT is also very unreasonable for regular natural language 
computation model. First of all, it is a great waste of computational resources, which is not only 
energy-consuming, but also has the limitation of context length. Under the hierarchical computation 
model, each character in a 100,000-word article should not be computed for all other characters, but 
should be limited to a local range. The amount of computation that grows with the context should 


be close to linear, not geometric, like that of the human brain. 


Therefore, it is of great importance to achieve a truly hierarchical expression and computation 
of knowledge. This is not only to solve such local problems as expression computation, or optimi- 
zation of computational performance, but definitely one of the important basic indexes for the real- 
ization of AGI! 


The above example also exemplifies another problem: vectors are not suitable for the exact 
expression of numbers nor are they difficult to express deterministic concepts. From the point of 
view of hierarchical structure, the root of a hierarchical structure can be represented by an identified 
concept to precisely represent the whole structure, an ability that vectors do not have. Therefore, 
one cannot represent everything with vectors alone, and an identified representation of the concept 


is also necessary. The integration of the two is a valuable topic. 


2.5 Knowledge inconsistency issue: bidirectional relationship representation 
and calculation 


GPT suffers from serious knowledge inconsistencies. 


As an example, "One study found that there is a [reversal curse] on large models that prevents 
them from reasoning that [B is A] even after learning that [A is B]. For instance, when we teach a 
model that [Washington was the first president of the United States], it does not automatically an- 
swer [Who was the first president of the United States?] , unless additionally taught that [The first 
president of the United States was Washington]." 


This problem arises simply because of the fact that the GPT is a neural network for one-way 
probabilistic expression and computation, and it employs the projection of characters from the front 
to the back. [Washington was the first president of the United States] and [The first president of the 
United States was Washington] would be treated as two completely different connections and com- 


putations, rather than one piece of holistic knowledge. 


This problem exposes the essential fact that no real structured knowledge is learned in such a 


way as in GPT! Adding more morphologically different but inherently redundant information can 


1 The multi-layered neural network structure of GPT implicitly expresses certain hierarchical information. 
However, the capability cannot be compared to a truly semanticized hierarchical knowledge structure, and it is dif- 
ficult to achieve more powerful nested computation of hierarchical combinations. 
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mitigate it in terms of effect, but it will not help to improve the overall level of intelligence. 


Obviously, this consistency of knowledge is not a problem for human beings. Knowledge of a 


whole should be expressed and memorized as a whole and can be flexibly applied in different forms. 


Therefore, the correct solution is to model the human approach. Specifically, the first step is to 
replace the unidirectional function computation with a semanticized relation with bidirectional prob- 
abilities. This kind of relation can express complete semantic knowledge and can also be used to 
perform probabilistic computation, which is a more reasonable, effective and complete knowledge 
expression. Furthermore, the semantic structure of such relations can realize the "scene-fitting" ex- 


pression and computation mode expressed by DCN theory. 


This model may well be the key to solving AGI. 


2.6 Weaknesses in reasoning issue: structured reasoning expression and com- 
putation 


According to DCN, roughly! speaking: comprehension and generation mainly refer to the ver- 
tical computation of a tree network from bottom to top and from top to bottom, the depth of com- 
putation is shallow and relatively fixed, which is the foundation of intelligence. Reasoning, on the 
other hand, mainly refers to the horizontal transformation between multiple tree networks, and the 
depth of computation can be very deep and range expansive, which determines the upper limit of 


intelligence?. 


Compared to the past situation where there was a complete lack of reasoning ability shown in 
natural language form, GPT has realized a considerable degree of reasoning ability, which is a great 
progress. However, the current level of reasoning is still relatively weak by higher intelligence 
standards. To continuously improve the reasoning ability and intelligence level, it is not only a mat- 
ter of increasing the corpus and training workload, but also the fundamental problems of technical 


principles and architecture need to be solved. 


© GPT's representation of inference knowledge, like other knowledge, is a black-box struc- 
ture that lacks stability and reliability and is difficult to adjust with precision. The problem 
becomes more pronounced as more inference knowledge is added. Consistent with the 
previous review, a more conceptual and structured way to express reasoning knowledge 
and perform reasoning computation is a truly effective solution. Assuming that learning 
training in the form of chains of thought, etc., has allowed the system to learn reasoning 
knowledge to a certain degree of effectiveness, optimizing this knowledge into more es- 
sentially structured representations as well as expanding the parameters that matter (prob- 
abilities, etc.) will inevitably lead to even better results. Of course, the reasoning structure 
is more complex than the simple structure, and is a difficult problem that has not been 
effectively solved by techniques such as traditional knowledge graphs, thus requiring a 


better theory of structural design to solve it. 


1 Various computations exist in close relationship, e.g., comprehension and generation are also accompanied by 
reasoning, which can only be roughly delineated here. 
2 Derivative structures (set dimension) or nested structures (domain dimension) with less than 10 layers are ex- 


pressive enough to be processed quickly, which is close to "fast thinking"; Advanced reasoning will have very 
deep chains, with uncertainty in each link, which will be reflected as "slow thinking". 
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© Non-hierarchical and holistic issues: As previously discussed, reasoning computations re- 
quire stricter requirements of hierarchical and holistic nature. A single atomic reasoning 
computation should be a complete conversion from one pattern to another, and should not 
be reasoned character by character. The latter is not only computationally intensive, but 


also prone to the problem of inconsistent information. 


© Bidirectional reasoning flaw: As previously discussed, the reasoning of the GPT is unidi- 
rectional and must be elevated to the overall structure of bidirectional reasoning to express 


and compute. 


© = Multi-branch, multi-level complex reasoning: reasoning in real-world scenarios involves 


multi-branch, multi-level reasoning in the face of a wide domain of information. 


© The maximum probability branch selected by the first level of reasoning may not produce 
the optimal result after multiple levels of reasoning. Without formalized expressions, de- 
composable combinations, dynamic parametric reasoning structures and more flexible 
multi-way reasoning and retrospectively adjustable models, it is difficult to obtain the 


desired results. 


2.7 Knowledge and data mixing issue: hierarchical representation of knowledge 
and data 


GPT does not have a hierarchical definition of knowledge and cannot effectively distinguish 
between knowledge and data, and manages knowledge and data mixed together. And currently when 
using a model such as PROMPT and combining it with external information, both the internal and 
external information of the model are actually mixed with knowledge and data respectively. It does 


not really separate knowledge and data, but rather complicates the problem. 


Due to the difficulty of isolating the correct knowledge for effective sharing, different forms 
of iterative model training are being performed in the industry, generating many black-box 
knowledge bases with large amounts of redundancy but no uniformity, which continues to produce 


a waste of duplicated resources. 


The solution is to express and manage knowledge and data hierarchically. The computation 
can be seamlessly integrated, but the management structure can be flexibly decomposed. The im- 
portance and authority of each piece of knowledge can also be precisely defined and managed. 
Higher-level deterministic knowledge can be fully shared, while lower-level data can be stored flex- 
ibly, and different versions of knowledge and data that cannot form a consensus can also be main- 


tained. In this way, a more reasonable knowledge and data maintenance system can be constructed. 


Hierarchical management of knowledge and data also facilitates assistance in resolving data 
copyright issues at the technical level. True higher-level knowledge is maintained at a small scale, 
and there are no copyright issues with this human consensus knowledge. A large amount of lower- 
level knowledge (e.g., all kinds of news) should be embodied as data stored independently, and can 
be refined to identify each piece of knowledge in terms of copyright, and can even generate new 


business models adapted to the age of intelligence. 
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2.8 Knowledge learning issue: multi-level incremental learning models 


LLM is an overall black-box structure that cannot be broken down into individual pieces of 
knowledge for adjustment, nor can it effectively distinguish between correct and incorrect 
knowledge. This leads to problems such as catastrophic oblivion when learning new knowledge that 


may undermine existing knowledge. 


The solution is to realize real-time and incremental learning based on knowledge hierarchy. 
Since each piece of knowledge can be split, it can form an efficient pattern similar to human learning 
knowledge. The already explicit knowledge is fixed first, and then only the new knowledge is 


learned incrementally, which is more stable and reliable to continuously accumulate knowledge. 


The learning of truly layered knowledge will be more efficient. There is more knowledge at 
the shallow level, and the learning actions are of more high frequency, but only the more peripheral 
knowledge base needs to be modified. If higher-level knowledge needs to be adjusted, then the 
higher-level base knowledge base is passed on for modification. Typically, the higher levels have 


less knowledge and more low-frequency learning adjustments. 


2.9 Alignment of uncertain information issue: conceptual representation of cer- 
tainty 


Natural language has complex ambiguity, and the same natural language word often corre- 
sponds to multiple different semantics, which has been the core problem of natural language pro- 
cessing!. The key to solving the ambiguity problem is to fully utilize the contextual information, 
specifically the individual words to project each other, which is essentially what GPT does: GPT 
internally disassembles the vocabulary into Token and then converts it into vectors, and lets the 
vectors extrapolate each other to eliminate ambiguities. Eventually, based on the result vectors are 
converted to Token and vocabulary again, indirectly inferring from the input and output represen- 


tations. The accuracy of natural language understanding is excellent’. 


However, the hidden semantic concepts formed by GPT comprehension, especially the overall 
structure, are difficult to express. There is not even a complete set of semantic standards that can be 
targeted, so the GPT output is still natural language. This causes the problem that semantic concepts 
as well as semantic structures are difficult to be aligned, and it is difficult to realize reliable infor- 
mation docking and sharing among multiple systems and models by relying only on the form of 


natural language. 


It is well known that the exchange of information between systems starts with ensuring the 
consistency of information standards. Therefore, a global semantic concept and structure is neces- 
sary even from an engineering point of view only. Only with deterministic semantic expressions 


can information be effectively shared and transferred between systems, and any two systems can be 


1 Tf all natural languages can always be expressed as standard structures that are rich enough in information and 


free of ambiguity, then many complex intelligent tasks can be realized on this basis, even with the use of stacked 
manual development. 

2 It is still questionable whether the comprehension of the first session reaches the standard of human compre- 
hension when judged from the results of a multi-session end-to-end dialog. Traditional machine translation tech- 
niques clearly do not really understand the semantics, but can output results that are not too far off all the same. In 
a sense, machine translation has a relatively unique standard of results, and errors are easily detected by humans, 
whereas problems with diffuse generated dialogs are harder to detect. 
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directly interfaced without the need for GPT. Moreover, any two systems can be directly interfaced 
without the requirement of GPT, and problems such as task decomposition and combination, multi- 


technology integration, and long-term memory access can be better solved. 


2.10. Bias and jailbreaking issue: semantics-based control of absolute infor- 
mation 


Information control issues such as bias, jailbreaking, and security are also challenges faced by 
LLM technology. 


Nowadays, it is common to try to solve the problem by constant training fine-tuning, and 
prompt. However, this model hardly guarantees stable and reliable results and eventual convergence. 
Information interacts with each other, e.g., assuming that a prompt works, another prompt that is 
peripherally spiked again can also request the system to turn off the effect of the previous prompt!. 


A probabilistically optimal model cannot solve the problem of probabilistic absolutes. 
The solution is in two ways: 


© The first step is still to define semantic concepts and structures. The semantics of [bias], 
[sensitive information], etc. are also accurately defined, and accurate semantic parsing 


and categorization of both input and output information can be achieved. 


@ Then the next step is to have a precise semantic basis. Reliable information control can 
be inserted at any point in the process, giving absolute control over specific processing 


tules (probability set to =1, no other computation allowed to override). 


3. Introduction to the DSM Deep Semantic Model 


DSM (Deep Semantic Model) is a specific implementation of DCN (Dynamic Cognitive Net- 


work) theory for language semantic processing. 


Compared with traditional knowledge graphs, DSM can realize important capabilities such as 
deep semantic expression, complete semantic expression, hierarchical semantic expression, algo- 
rithmic closed-loop system, probabilistic expression and computation, and docking of natural lan- 
guage, forming a complete linguistic semantic expression and computation system. It has the po- 
tential to become an independent and complete intelligent system. Comparatively speaking, tradi- 
tional knowledge graphs are usually more suitable for constructing thematic databases to provide 


data for intelligent systems but difficult to be used as an autonomy-driven intelligent system. 


DSM has extensive content, and this paper will only provide a brief introduction to the tech- 


nical points. 


3.1. Deep semantic structure 


The basis of the deep semantic model lies in the definition of its unique DSM structure, which 


1 In fact, can GPT make any strict distinction at all between the rules that the system designers have trained for 


it and the commands that ordinary users give to it? 
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adopts the two-dimensional multi-level tree network structure proposed in the DCN theory and is 


optimized according to the characteristics of the language. 


Deep semantic structure is also a structure that integrates expression and computation. The 
structure itself expresses the conceptualized semantic knowledge and also describes the basic rules 
and parameters of computation. Various computations are embodied in various creations, combina- 


tions and transformations of the structure relying on its own semantics and parameters. 
3.2 Separation of semantics and language 


DSM completely separates the semantic model from the language model. Semantics is inde- 
pendent of natural language, and the two are interchanged through comprehension and generation 
algorithms. "Use language for extrinsic expression and semantics for intrinsic expression and com- 


putational thinking." 


Semantic and linguistic transformations are described and computed mainly through two [own- 


ing] relations: 
@ Semantic concepts has linguistic morphology. 
@ Semantic roles has linguistic roles. 


@ Linguistic is understood to be the same set of relational structures shared by the reciprocal 


operations of semantics and semantically generated linguistic. 
3.3 Hierarchical Semantic Knowledge and Data System 


Following a basic principle - "human knowledge systems are hierarchical" - DSM builds a 


multi-level semantic knowledge system. 


The higher-level knowledge is more basic and important, and is the basis for understanding 
and expressing lower-level knowledge, while the amount of higher-level knowledge is more limited. 
The interpretability and computability of a semantic model is mainly represented by the topmost 
level of knowledge. Such topmost knowledge includes [concepts] [entities] [relationships] [roles] 
[existence] [measures] [degrees] [sets] [intervals] [comparisons] [sequences] [space] [time] [things] 
[events] [event roles] [expressions] [equations]... etc. The interpretability and computability of a 
semantic model is mainly represented by the topmost level of knowledge. Such topmost knowledge 
includes [concepts] [entities] [relationships] [roles] [existence] [measures] [degrees] [sets] [inter- 
vals] [comparisons] [sequences] [space] [time] [things] [events] [event roles] [expressions] [equa- 


tions]... etc. 


The vast amount of knowledge in the lower and middle levels is much more extensive and 
theoretically infinitely expandable. But it is all interpreted and computed using the higher level 
knowledge. In principle, it is no longer necessary to implement different algorithms for different 


knowledge!. 


The idea of a hierarchy of knowledge also applies to the division of knowledge and data. Data 


is seen as a lower-level of knowledge, and the two are theoretically completely isomorphic and can 


1 Of course, specific business applications can also be realized by expanding algorithms for specific knowledge 


as needed. 
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be seamlessly integrated. 


In terms of storage management, "separation of knowledge and data" can be realized, since 
lower-level knowledge is unidirectionally dependent on higher-level knowledge, different levels of 
knowledge and data can be stored separately. For computational processing, higher-level knowledge 
must be loaded, while mid- and lower-level knowledge and data can be loaded dynamically on 
demand, and can be designed in a variety of specialized structures (e.g., relational databases) for 
optimal expression as well as in natural language, which can be viewed as a compressed form of 


deep semantics. 
3.4. Inheritance, overloading and aggregation 


DSM uses belong to relation and inheritance mechanism to realize the hierarchical representa- 
tion of knowledge. The lower-level knowledge first inherits the derived network of the higher-level 
knowledge by default, thus inheriting all the information of the base network. Instead, in response 
to changes in the information of the derived network with respect to the base network, an overload- 
ing definition is performed to modify the changed information (including probability distribution 


parameters, etc.).! 


DSM uses the [belong to] relation as the basis for variable binding, pattern matching, and 
other computations. DSM uses the [belong to] relation as the basis for variable binding, pattern 
matching, and other computations. The two relations [derivation] and [instantiation] in traditional 
object-oriented methods are unified, and the processing of [variable allocation binding?][problem 
solving] and so on are unified in this way. The core of DSM is the fusion of theories and methods 


such as [set][probability] object-oriented]. 


DSM adopts a system of multiple base classes, where multiple base classes can be combined 
together by multiple inheritance and aggregation. Combined with mechanisms such as probability 
and overloading’, it solves the drawbacks that exist in many ontological approaches that try to build 


conceptual systems based on single inheritance and absolutes. 


There is a very strong connection between multiple base classes and vectors. Base classes are 
multilayered and more expressive, while vectors can be a multibase class with a flat hierarchy. Base 
classes can replace vectors, but not vice versa. Elementary perceptual intelligence works very well 
with vectors, while advanced cognitive intelligence has to utilize a multi-hierarchical base class 
structure to achieve higher compression rates. A base class can be equated to a set of more basic 
base classes and vectors, so that there is no need to replicate tens of thousands of vectors for a large 


amount of lower-level knowledge and data. 


Therefore, the single-level multidimensional vector representation of LLM and the multilevel 


1 Derived networks inherit information from the base network. The fact that the unchanged information does 
not require additional storage is the essence of realizing "intelligence as compression". 

2 The book "Algebraic Brain: Uncovering the Logic Behind Intelligence" has a lot of valuable content, and for 
the "variable binding" mentioned therein, the concepts of derivation and aggregation can be better explained theo- 
retically and more easily realized in practical form. 

3 Mechanisms such as overloading allow old knowledge to be redefined in terms of new knowledge and, in 
combination with mechanisms such as probabilistic expressions, which avoid the dilemma caused by absolute defi- 
nitions of knowledge. 
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multibase class derived representation of DSM both have their own advantages. The effective inte- 


gration of the two is a topic of great significance. 
3.5 Bidirectional Relation and Tree Network Structure 


Like other concepts, relations in DSM are derived from one level to the next, with [belong to], 
[aggregate], [own], [reason], and [hierarchy] being the most basic relations at the top level. A brief 
explanation is given here; see [Citation 1] for a detailed explanation. 

Belong to relation: The belong to relation is a relation on the set dimension, also called a de- 
rived relation, which is represented as [A belongs to B] or [B derives from A]. A is called derived 
concept (or derived relation) and B is called base concept (or base relation). 


Equivalence relation: The equivalence relation is a particular case of belong to relations. 


Aggregate Relation: The aggregate relation aggregates concepts from two different domains 
into a single overall concept (called an aggregate), which has a derived relationship to the concepts 


in these different domains. 


Owning Relation: The owning relation is a relation on the domain dimension and gives rise to 
a variety of different owning relations. Note that the term " owning" is used here in a very broad 


rather than a narrow sense. 


Reasoning Relation: a narrow reasoning relation is also a relation on the domain dimension, 


which is a transformation between two patterns. 


Root Relation: The root relation is an implicit relation that expresses the direct affiliation of 


individual concepts to the root concept in a tree network structure. 


Tree network structure: The above relationships can be combined to form a tree network struc- 
ture on the set and domain dimensions. The tree network has a root, to which all elements (including 
concepts, relations, and additional relations) of the following multilevel hierarchy belong (the root 


relation expression), as an inseparable part of the whole pattern (see Figure 2). 
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Fig. 2: The diagram of the basic structure of DC Net 


The root of a tree network represents the entire tree network. The root has a projective rela- 
tionship to the individual elements, and the individual elements also have a projective relationship 


to the root, just with different individual projective probabilities. 


Network derivation: since both concepts and relations can be derived, thus the entire tree net- 
work consisting of concepts and relations can also be derived. Each node of the derived network 


and the corresponding node of the base network has a derivation relation, respectively. 


Bidirectional probability: all relationships have bidirectional semantic and probabilistic ex- 
pressions. The reason why many traditional rule-based systems cannot solve practical problems well 
is that, on the one hand, there is a lack of hierarchical relationship between knowledge and rules, 
and on the other hand, the definitions of knowledge and rules tend to be binary logic, which lacks 
the ability to express and compute the ubiquitous uncertainty information in practical scenarios. 
Therefore, it is of great significance for DSM to implant the expression system of affiliation function 


and probability etc. in the basic structure!. 


Analysis of the significance of tree network: neither simple tree structure nor ordinary network 
structure can express cognitive information effectively. Ordinary network structure lacks hierar- 


chical information and is difficult to decompose problems; while simple tree structure lacks the 


1 In addition, in contrast to the expression of quantifiers such as [AII][Exiet] in Cyc, the DSM translates into 
the expression of parameters such as the number of instances of a concept as a percentage in a more quantitative 
way, which facilitates the realization of a unified computation in conjunction with probability. 
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ability to express complex structures in real scenarios in a complete way. Tree network structure 
combines the hierarchical structure and problem decomposition ability of trees with the comprehen- 
sive information expression ability of networks, and breaks down complex cognitive expressions 
into relatively simple local problems to be solved independently, which is of great significance to 
the development of AI. We believe that the operation of the human brain also heavily employs a 


logical structure similar to the tree network. 
3.6 Algorithm system 


In DSM, several basic algorithms such as comprehension, generation, querying, reasoning and 


learning are defined to form a complete algorithmic closed-loop system for language semantics. 


Omnidirectional growth of a single network: The DSM structure is the basis for various algo- 
rithms. All algorithms are in fact omnidirectional network growth algorithms, which are considered 
to be computations that "complete" the unknown parts according to the different known parts around 


the same two-dimensional multilevel tree network structure. 


It is equivalent to the unification of "encoder" and "decoder", as well as the unification of the 
two computational models of "discriminative model" and "generative model". It is the computation 


of the same structure in different directions. 


Compared with end-to-end black-box computing, DSM's algorithmic system is white-box, and 
all aspects can be seamlessly and automatically processed. It can also be completely disassembled 
for customized processing when necessary, reflecting full flexibility and enabling complex multi- 


service fusion computing and continuous computingl!l. 


See [Citation 1] for detailed algorithmic principles. Among them, the query algorithm, also 
known as the semantic pattern matching algorithm, is a very basic algorithm in the whole system. 
The semantic pattern matching algorithm uses the [belong to] and [aggregate] relations of multiple 
base classes as the base rules, which can be combined with probabilistic calculations. It can also 


guarantee the rule requirement of complete pattern matching. 
3.7 Expression of reasoning and computation 


Reasoning is one of the key algorithms of intelligent systems. Here is an explanation of the 


reasoning model and algorithm of DSM. 


In DSM, the reasoning computation is embodied as a transformation of one tree network pat- 
tern to another, and each atomic reasoning is expressed in terms of a reasoning structure. The root 
of the reasoning structure is a [reasoning] relation that connects the two tree networks in which the 
reasoning is performed to form a larger tree network. Of course, the most basic reasoning relation 
can be derived from many more specific reasoning relations, all of which have the same basic struc- 


ture. 
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形式 


The above is an example of a reasoning tree network. This tree network knowledge describes 
reasoning the formula [Distance] = [Speed] * [Time] for all [Movements]. After encountering all 
the application problems with [Movement] as the base class, no matter it is [Airplane flies from 
Beijing to Shanghai] or [Car runs from A to B] or [Xiao Ming walks from home to school], or 
whether it is [Speed], [Distance] or [Time] that is ultimately solved, they will all be matched to the 
same pattern and activate the mathematical formula of [Distance] = [Speed] * [Time], which will 
enable to achieve reasoning and calculations that form the basis for enumerating mathematical equa- 
tions with an understanding of the application. 


Those that solve equations are carried out by reasoning about the interconversions between 


equations, for example: 
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This bi-directional reasoning of equations for multiplication and division can be used to solve 
all calculations such as multiplication and division (and is not limited to solving the event [Move- 
ment]). The specific transformation calculation of the equation is to select each reasoning transfor- 
mation mode, find the transformation path to transfer the variable of the solution target to the right 


end, and finally complete the calculation. 
Like other computations, the specific computation of reasoning is a network complementation 
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computation. Specifically : pattern matching is performed first. Once a pattern matches a part of an 
inference pattern successfully, it triggers the creation of a reasoning instance derived from this rea- 
soning pattern as a base template, and completes the other part of the reasoning instance. (See [Open 
Source DSM 1.0 Example] for an example of parsing, reasoning and generating the sentence "How 
long does it take for an airplane to fly 1,200 kilometers from Beijing at 800 kilometers per hour?" 


al 学 习 和 对 话 | al 检查 新 知识 ol 翻译 国 双语 对 照 学 习 新 会 话 Sa 简略 回答 ANR- MNR- 


【分 析 】 整 句 匹配 1 个 : 飞机 从 北京 以 80 公 里 每 小 时 飞行 1200 [A] : 飞机 从 北京 以 80 公 里 每 小 时 飞行 1200 公 里 多 久 到 上 海 。 
公里 多 久 到 上 海 。 【机 】: 明白 。 
[飞行 ]:[ 移 动 ] 方 式 
( 主 词 ) [飞行 主 体 ]:[ 飞 机 ]:[ 交 通 机 器 ] 
(前 同 )[ 飞 行 主体 ]:[ 飞行 主体 ]:[ 角 色 概 念 ] 
(前 状 )[ 位 置 起 点 ]:[ 北 京 ]:[ 直 辖 市 ] 
(前 同 ) [空间 位 置 ]:[ 位 置 起 点 ]:[ 空 间 位 置 ] 
(前 状 ) [速度 ]:[ 速 度 ]:[ 量 化 概念 ]( 即 角色 ) 
(前 状 ) [速度 量 ]:[ 公 里 每 小 时 ]:[ 速 度量 ] 
(前 十)[ 数 ]:[80]:[ 数 ] 
(后 妆 )[ 室 间 路 径 ]:[ 室 间 路 径 ]:[ 抽 象 路 径 ] 
(一 宾 ) [空间 距离 ]:[ 宝 间距 离 ]:[ 抽 象 距离 ] 
(一 宾 )[ 长 度量 ]:[ 公 里 ]:[ 长 度量 ] 
(前 定 )[ 数 ]:[1200]:[ 数 ] 
(后 状 )[ 时 间 量 ]:[ 多 少时 间 ]( 时 间 段 ):[ 代 词 ] 
(后 状 )[ 位 置 终 点 ]:[ 上 海 ]:[ 直 辖 市 ] 
(前 同 )[ 空 间 位 置 ]:[ 位 置 终 点 ]:[ 空 间 位 置 ] 
( 必 标 )[ 句 子 语 用 ]:。:[ 陈 述 句 ] 


DES] 结果: 
1、80 公 里 每 小 时 乘 多 久 等 于 1200 公 里 【概率 =100%6] 
1、1200 公 里 除 80 公 里 每 小 时 等 于 多 久 【概率 =100%] 
1、15 等 于 多 久 [概率 =100%]】 


This semantically structured reasoning also has the following features: 


Abstract reasoning: the entire computation of reasoning also follows the principle of network 
derivation, where reasoning knowledge should be defined based on the most abstract essential base 
class for the most efficient generalization. 


Hierarchical reasoning: large reasoning can be decomposed into small multilevel reasoning, 


combined and stacked to realize complex reasoning tasks. 


Bidirectional reasoning: reasoning structures are described bidirectionally, and the same struc- 


ture can realize bidirectional reasoning. 


Branch reasoning: The fact that reasoning is also probabilistic provides a basis for calculation 
choice for multi-branch reasoning. 


Logical reasoning: logical reasoning can be realized by combining multiple atomic reasoning 
using [And][Or][Not]. 
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Planning and action: Processes such as planning and action extend around the same reasoning 
structure. Planning is the design of plan structures using the reasoning structure, and action is the 
execution of those plans. In any case, a conceptualized structure is used as a basis for better imple- 
mentation of various reasoning, planning, reviewing, adjusting, and executing tasks to meet the 


functional requirements of more powerful intelligent systems. 
3.8 Probabilistic Expression and Calculation 
Here is an explanation of two points related to probability. 
© The Importance of Probability Collapse 


The probability collapse mentioned in DCN is a theory and method that needs to be emphasized 


as an effective way to solve some of the drawbacks of traditional probability calculations. 


In the process of computation, information with high probability and certainty can be collapsed 
probabilistically (set probability = 1) and that information can be made completely explicit, thus 
changing the goal and direction of the computation. Not only does it reduce ineffective computation 
to obtain higher performance, but more importantly, it eliminates errors (uncertainty transfer and 
computation itself have cumulative errors.) Proper partial collapse actually facilitates the elimi- 
nation of such errors in intermediate processes!) . Moreover, probabilistic collapses can be preset 


as needed for more effective control of the system. 


( In some sense, one of the essential differences between symbolism and connectionism is 
also reflected in probability collapse: symbols are what all computation ultimately needs to achieve, 
and a symbol represents a definite piece of information, i.e., a collapsed state! But in the early stages 
of computation, when a message is not yet certain, expressing the message in explicit symbols at 
this point (collapsing in advance) is inaccurate or even wrong. GPT is not separated from symbols, 
but only expresses and calculates the superposition state of multiple symbols using probability vec- 
tors first, and does not perform probability collapse until the end, which still ends up forming deter- 
ministic symbols as well! Thus, symbols and probability are not two mutually exclusive systems at 
all; they are mutually transformative. And the conceptualized structure combining probability can 
express both probabilistic superposition state and collapse state!, remaining interpretable in the su- 
perposition state, and intervening for probabilistic intervention at any link. It can make up for the 
shortcomings of traditional symbolic computation and black-box neural networks, and show the 


advantages of more flexible technology). 


Probability collapse is also a fundamental way of thinking in the human brain. The human 
being observing and interpreting the world encounters unknown and uncertain information at all 
times, and needs to go as quickly as possible to identify and even manipulate the information that 
can be prioritized and made explicit. Once some of the information has been made explicit as known 
(at which point it must be necessary and must be possible to define a notation to express it), it can 
shift the focus of attention and the flow of computational reasoning to recalculate other unknowns 
in terms of the known. This shift in conditioning and computation continues on an ongoing basis 


before the complex world can be processed effectively. If the information that needs to be clarified 


1 Specifically, DSM can represent superposition states of multiple concepts in terms of probabilities, abstract 


base classes, sets, and so on. 
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is not clarified as soon as possible, nothing can be done in the face of a "chaotic" system with more 


and more uncertain information. 


The theory of probability collapse is also important in the scenario of image recognition. The 
local correlation of images is very strong. Once an object reaches probability collapse, it will drive 
the probability collapse of a large majority of surrounding objects, thus converging rapidly. If this 
method is applied to image recognition and video recognition it will be even more effective than 


language processing. 
@ Simplified computation of probability 


Although DCN is designed based on the theory of sets and probability, the actual application 
scenario for an open system simply cannot give a strict definition of probability and precise values. 
The first thing that AI needs to solve at this stage is actually the "probability of significance under 
the open system problem", and the probability of the correct result of such a problem is much greater 
than the probability of other results. For these problems, it does not require a very high computa- 
tional precision!, and very often the problem can be solved very effectively with integer-type addi- 
tion and subtraction operations. For problems where ambiguity still exists, it is not useful to increase 
the computational precision; what is needed is to add more information. For example, it is necessary 


to obtain the necessary information through multiple rounds of communication in a dialog. 


Tasks that require high-precision probabilistic computation (e.g., machine Go) are usually 
"non-significant probabilistic problems in a closed system". Therefore, this should be modeled and 


implemented independently of the domain of expertise, and then interfaced to the system. 
3.9 Technical Applications 
The business applications of DSM can be gradually expanded as the technology improves. 
@ Basic application 


At the early stage of technology development, after constructing a certain scale of DSM model 
and knowledge base and focusing on realizing the ability to understand natural language as DSM 
structure, with accurate, rich, and standard structured semantic information as the basis, then we can 


start to support the realization of various businesses in many aspects. 


Moreover, DSM and LLM have their own specialized capabilities. Using the unified semantic 
expression capability of DSM, the two can be tightly integrated to form a more complete technical 


solution to enhance the effectiveness of business applications. 
Specifically, the DSM can focus on the following roles: 


Semantic parsing: Semantic parsing of natural language to form unambiguous semantic struc- 


tures to support business development; 


Semantic integration: Integrate semantic information from multiple rounds of conversations 


and history to form a complete task semantic structure and reliably support complex task stacks; 


1 If a high degree of precision is needed to distinguish between two outcomes that are close in probability, then 


it is clearly not the only outcome that is reliable. 
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Task distribution: precise analysis of task semantics for distribution to vertical models and 


systems. 
Task management: to manage current and historical tasks based on semantic structure. 


Semantic reasoning: to realize various reasoning calculations based on semantics and to per- 


form semantic transformations. 


Semantic generation: to generate lower-level semantics or natural language based on higher- 


level semantics. 


Semantic sharing and exchange: By utilizing the DSM semantic structure, information can be 
reliably transferred and shared among DSM, LLM and other systems. Various systems do not need 
to parse and disambiguate parameters, and can directly access the rich semantic information to re- 


alize accurate business processing. 


Semantic retrieval: the semantic matching algorithm of DSM is more accurate than vector 
matching and can play an important role in accurate information retrieval. And it is possible to build 


a more powerful information base than vector database based on deep semantic indexing. 


Execution-type tasks: Execution-type tasks have higher requirements for structured expression 
of task information, and each link should closely interact with different business systems and add 


configurable control rules, which can be more effectively met by DSM. 
© = Enhanced applications 


In the later stage of technology development, with the expansion of the model and knowledge 
base as well as the further improvement of the algorithm system, the ability of intelligent processing 
will be comprehensively enhanced in all task segments to realize more powerful intelligent business 


applications. 
3.10 Prototype systems 


We have open-sourced DSM 1.0, an earlier version completed in 2016 
(https://github.com/chenfeng-china/DSM). The basic theories, models, and algorithms of this ver- 
sion have taken shape, especially giving a model library containing thousands of the most critical 
underlying concepts and structures, and demonstrating the fundamentals of deep semantic represen- 
tation and computation with several examples, which can be analyzed and researched by related 


people. 
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4. Further Work 


The DSM has been continuously developed and refined, and is now iterated to the third gener- 
ation, with further R&D work to follow. Among them are the following key objectives: 


4.1 Implementation of the ability of LLM to read and write DSM structures 


A very valuable recent work is: training LLM to realize the ability to read and write DSM 
structures directly, specifically: the ability to parse and output natural language into DSM structures, 
and the ability to read DSM structures to generate natural language. So as to facilitate more flexible 


integration of various technologies and systems to realize intelligent business and products. 
4.2 Building a complete deep semantic knowledge base 


Building a more complete knowledge base of the DSM foundation and knowledge base of each 


domain is important work and a process that needs to be continuously accumulated and improved. 


In contrast to some other knowledge base builds, DSM knowledge base builds prioritize 
"depth" over "breadth". Higher-level knowledge is more effective and important, and needs to rely 
on AI experts to design and accumulate it. In this regard, we have solved a large number of key 
model structure problems in the previous R&D work, and constructed a basically complete higher- 
level knowledge system, which has laid a good foundation for the subsequent work. 


After the basic knowledge system is constructed and shaped, the further derived and expanded 
knowledge is more numerous but less difficult, which can be constructed with the joint participation 
of experts from various industrial fields. Moreover, LLM can be applied to accelerate the construc- 
tion efficiency of the DSM knowledge base and database, including: LLM as an auxiliary tool to 
assist DSM in knowledge discovery and processing; directly converting the hidden knowledge of 
LLM to DSM structured knowledge, etc. The lower-level knowledge and data will be automatically 
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learned and processed in complete real time. As the scale of the entire model increases, the capabil- 


ities of the system will also have an "emergent" effect. 


Building this deep semantic knowledge base may have important social value. In contrast to 
black-box type holistic models, each piece of knowledge can be shared and used by industries and 
continuously optimized for improvement. This could serve as an important public infrastructure for 


realizing more powerful AI. 


To this end, it can be considered to build an open platform to open up the above knowledge 
model, knowledge base and algorithmic capabilities, and to allow the whole industry to participate 


in improving the deep semantic knowledge base. 
4.3 Building a stronger overall model 


Longer-term goal: further deep integration of DSM and LLM to build an integrated intelligence 
model that combines the advantages of both. To summarize, the main features of the model are as 


follows: 
© Conceptualize, structure, and interpretable knowledge structures; 
@ Designing better DSM structures and semantic vector structures!; 
@ Realizing the convergence of vector computation and conceptual system computation; 
@ = Realizing a more complete and efficient basic algorithm system; 
© = Realizing complete real-time knowledge learning capabilities; 
@ Incremental, active learning, and continuous learning; 
@ A unified platform for "knowledge + data" integration; 
@ Realizing stronger reasoning, planning, and execution capabilities; 
@ Realizing a deeper and more comprehensive intelligent agent system; 
© More efficient computing and lower resource consumption; 


Among them, continuous active learning is the core ability that a powerful AI must have. Super 
Al's learning will not be one-time, but can continuously and actively seek information to learn 
knowledge, as well as introspection on the existing knowledge system and complement and optimi- 
zation. In this system, the hierarchy of knowledge and data plays a decisive role, and is the basis for 
the system to recognize the value of information and set learning goals, as well as controlling the 


adjustment and storage strategy of the entire knowledge system for each learning task. 


1 As mentioned earlier, the multi-level system of concept derivation and the single-level system of vector expression have their 
own advantages and disadvantages, and vector expression can look at the special case of concept derivation, and the two need to be 
integrated. Some basic concepts should have both vectorized representations. Therefore, designing a complete set of basic vectors 
that are conceptualized, interpretable, and inclusive of multimodal information is a very important task. This will be a conversion goal 
for non-conceptualized vector systems such as LLM, and will be an important foundation for the newer generation of DSM models. 
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Note appended: The original version of this paper is written in Chinese, and there may be 
deviation in the translation process. Therefore, the Chinese original version is attached for reference. 


If there is any difference between the two versions, the Chinese original version shall prevail. 
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LLM 问题 分 析 与 DSM 深度 语义 模型 


陈 峰 BR 


摘要 


本 文 分 析 了 目前 LLM 存在 的 主要 问题 ， 并 提出 了 具体 解决 方法 ， 指 出 了 : 结合 概率 的 
概念 化 结构 模型 的 表达 和 计算 是 关键 , 并 对 相关 技术 一 深度 语义 模型 (DSM) 进 行 了 简要 的 讲 
解 ， 最 后 列举 了 后 续 的 重点 工作 方向 。 


关键 字 : LLM; GPT; 幻觉 ; DCN; 动态 认 知 网 络 ; DSM; 深度 语义 模型 ; 可 解释 ; 概念 化 ; 
结构 化 ; AGI; 
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1. 引言 
MS, LLM 的 发 展 极 大 提升 了 自然 语言 处 理 的 技术 水 平 , 揭示 出 AI 技术 具有 着 巨大 的 


能 力 和 应 用 前 景 ， 将 为 人 类 社会 带 来 很 多 积极 影响 ， 这 一 点 已 经 在 业界 形成 了 共识 。 


但 同时 ， 在 不 断 深入 的 研究 和 应 用 中 也 其 露出 LLM 技术 存在 诸多 关键 性 问题 ， 这 些 问 
题 对 技术 的 进一步 提升 和 应 用 价值 的 充分 发 挥 造成 了 明显 的 阻碍 , 业界 也 有 相当 多 的 观点 认 
为 目前 的 LLM 并 不 是 实现 AGI 的 终极 方案 。 


本 文 以 典型 的 代表 产品 ChatGPT 为 例 ， 对 类 似 的 LLM 存在 的 主要 问题 进行 了 深入 分 
析 ， 并 提出 了 根本 性 的 解决 方法 或 方向 。 


本 文 也 对 DSM 深度 语义 技术 进行 了 简要 介绍 ， 对 其 基本 理论 、 模 型 架构 、 实 现 方法 、 
目前 成 果 等 方面 的 要 点 进行 了 阐述 。 分 析 了 该 技术 对 上 述 问 题 的 解决 模式 ， 以 及 该 技术 和 
LLM 协作 以 实现 更 优 的 技术 方案 和 产品 的 模式 ， 并 指出 了 后 续 的 重点 工作 方向 。 


需要 说 明 的 是 ， 概 念 名 词 的 内 涵 很 难 精 确 界定 并 且 在 不 断 变 化 。 本 文 所 述 的 LLM 是 指 
当下 业界 普遍 认可 的 定义 : 采用 深度 神经 网 络 架构 ， 通 过 大 量 语 料 进 行 自动 机 器 学 习 训练 ， 
成 包含 大 量 非 概念 化 的 连接 和 参数 的 黑 盒 结 构 , 采用 端 到 端 方式 对 自然 语言 进行 计算 的 模 
型 。 文 中 以 GPT 为 例 进行 分 析 ， 指 出 的 大 部 分 问题 对 目前 的 其 它 LLM 都 是 适用 的 ， 小 部 分 
问题 可 能 对 另 一 些 LLM 不 适用 ， 但 不 影响 整体 的 结论 。 
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2. GPT 相关 问题 的 分 析 和 人 解决 


2.1. 可 解释 性 问题 ， 概 念 化 结构 的 表达 和 计算 
可 解释 性 可 以 定义 为 : 以 人 类 可 理解 的 术语 解释 或 呈现 模型 行为 的 能 力 。 可 解释 性 不 应 


该 只 是 系统 的 一 个 衡量 指标 , 而 是 和 功能 效果 同等 重要 的 系统 实现 目标 。 人 们 研究 各 和 
训 和 提升 ， 可 解释 | 


都 是 在 构建 可 解释 的 体系 , AGI HIE EX AREY 


AGI 的 核心 目标 。 即 使 以 唯 结果 论 的 标准 来 看 ， 对 系统 的 解释 


EREZA 


整 、 控 制 能 力 ， 也 决定 了 系统 最 终 功 能 效果 的 上 限 。 
目前 ，LLM 存在 可 解释 性 较 差 的 问题 ， 
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数据 、 大 量 重 复 的 训练 、 


概念 化 就 是 定义 人 类 理 


12288 个 维度 的 向 量 来 表达 基本 信息 ， 这 些 向 量 维度 主要 由 机 器 自动 学 习 , 没有 和 人 类 能 理 
解 的 概念 对 齐 !。 假 设 能 将 这 12288 个 向 量 维度 等 效 地 转换 到 另外 12288 个 2 人 类 能 理 角 
目标 。 如 果 仅 依靠 自 下 而 上 自动 机 器 学 习 就 能 实现 这 个 


念 ， 就 在 一 定 程 度 上 实现 了 概念 化 的 
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科学 ， 
同样 也 是 
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能 力 决 定 了 对 系统 的 分 解 、 调 
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灾难 性 遗忘 等 问题 ， 本 质 上 也 是 这 个 根源 问题 的 反映 。 


解决 可 解释 性 问题 的 最 有 效 的 方法 就 是 概念 化 和 结构 化 。 
解 的 概念 来 作为 构成 系统 的 基本 元 素 。 以 GPT3 为 例 ， 采 用 了 


目标 当然 非常 好 ， 但 若 实现 不 了 ， 那 么 结合 自 上 而 下 的 人 工 设计 就 非常 必要 。 


概念 化 的 同时 就 伴随 着 结构 


述 和 计生 


只 有 概率 计算 参数 而 不 蕴含 语义 信 ， 
于 一 体 的 概念 化 结构 的 重要 工作 。 


同时 ，Transformer 是 全 连接 的 ， 这 很 适合 初期 先 穷 举 发 现 一 切 可 能 的 知识 ， 但 固定 的 
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， 在 GPT 中 ， 对 向 量 进 行 计算 的 连接 也 是 非 概念 化 的 ， 


电 。 将 众多 连接 也 进行 概念 化 和 语义 化 , 也 是 形成 融合 描 


结构 也 意味 着 学 到 有 效 的 知识 以 后 


成 为 问题 。 
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近乎 无 限 的 信息 。 关 键 还 是 在 于 具体 的 方法 
更 充分 的 概念 化 和 结构 化 会 将 有 效 知 识 的 压缩 率 提升 到 更 高 , 解释 性 及 其 相关 的 问题 也 不 再 


时 概率 参数 接近 了 
计算 资源 。 概 念 化 和 结构 化 也 包括 着 对 概念 和 结构 进行 裁剪、 


“智能 就 是 压缩 ”， 这 个 说 法 没有 问题 ， 人 类 思维 的 本 质 就 是 以 有 限 的 大 脑 容 量 去 处 理 
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现在 ， 非 常 重要 的 工作 就 是 构建 一 个 广 域 基础 
来 解释 LLM 并 弥补 其 缺乏 语义 结构 的 缺陷 ， 并 作为 发 展 更 
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果 都 可 以 归结 到 这 个 原因 。 


个 基本 到 


用 DCN 动态 认 知 网 络 钙 的 观点 来 看 ， 理 解 、 查 询 、 


现 AGI 的 重要 的 基础 算法 ， 彼 此 无 法 相互 奉 代 


， 结 合 起 


1 每 一 个 向 量 维度 实际 上 是 多 个 概念 的 混合 。 不 管 使 用 作 
这 些 向 量 实现 了 拆 解 重组 并 和 人 类 理解 的 概念 对 齐 ， 上 出 
理论 上 


PTT 


[以 用 另外 12288 M4 


定 可 
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里 、 生 成 、 学 习 等 算法 (图 
来 才能 完备 地 解决 


言 息 进行 压缩 的 高 效 方法 ， 


概念 (包括 概念 化 向 量 ) 和 结构 体系 ， 可 以 
强大 的 AI 系统 的 基础 。 


LE 论 缺 陷 ， 很 多 难以 解决 的 问题 和 结 


]) 是 实 
种 计算 任务 。 


Le 


KE， 如 果实 现 了 可 解释 性 ， 
时 进行 转换 优化 也 就 成 为 了 必然 。 
售 度 来 完成 等 效 的 转换 ， 但 大 概率 可 以 优化 到 更 少 的 维 


a 
<) 
1 


» 


(5) 匹 配 与 查询 


实 线 : 已 经 生长 的 元 素 ; 虚线 : 客观 存在 并 且 未 生长 的 元 素 ; 灰色 虚线 : 客观 不 存在 的 元 素 ; 
黑色 : 概念 和 纵向 关系 ; RE: 属于 关系 ; 兰 色 : 横向 关系 ; 


Ds 


图 1: 型 算法 示意 


GPT 主要 采用 广义 生成 算法 !, 就 是 已 知 的 多 个 字符 计算 下 一 个 字符 (严格 来 说 是 Token), 
基本 原理 可 以 概括 为 : 

1. 用 已 知 的 字符 序列 中 的 每 一 个 字符 的 向 量 ， 分 别 计算 目标 字符 的 向 量 。 

2. 各 个 已 知 字符 分 别 对 目标 字符 计算 出 的 目标 向 量 进 行 琶 加。 

3. 目标 字符 的 考 加 向 量 和 字符 字典 库 比 对 ， 取 最 符合 的 作为 结果 。 


这 个 算法 对 生成 型 任务 有 较 好 的 效果 , 但 缺乏 完整 的 结构 化 层级 计算 和 概率 划 缩 计算 等 
关键 能 力 , 并 不 能 等 效 普 换 其 它 算法 , 强行 痊 代 无 法 使 各 种 任务 的 效果 都 能 收敛 到 理想 状态 。 
根本 的 解决 手段 就 是 要 设计 更 完备 的 算法 体系 , 这 种 算法 体系 应 该 围绕 上 述 概念 化 结构 进行 
设计 。 

以 下 选择 一 些 问题 进行 更 具体 的 分 析 。 

2.3. 幻觉 等 问题 : 选择 正确 的 算法 
通常 ， 将 LLM 计算 产生 了 不 符合 人 们 预期 和 标准 的 结果 都 统称 为 幻觉 ， 但 不 同 幻觉 有 


1 说 明 : DCN 里 的 生成 ， 是 特 指 在 集合 维 上 自 上 而 下 从 基 网 络 计算 出 派生 网 络 的 计算 。GPT 里 的 生 
成 ， 是 泛 指 根据 前 边 已 知 的 字符 串 计 算出 下 一 个 字符 (实际 对 应 于 DCN 里 边 的 “生长 ”)。 为 避免 混淆 ， 
必要 时 将 前 者 称 为 “狭义 生成 ”， 后 者 称 为 “广义 生成 ”。 
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不 同 的 产生 原因 。 


~ 


@ 理解 、 


首先 ， 理 解 、 
依托 [属于 关系 ] 和 [等 


“ 基 网 络 向 派生 网 络 的 生成 造成 概率 损失 ”、 
生成 、 等 价 计算 的 区 别 


生成 、 等 价 这 些 计生 


NRR 


MBETA KERTA (ASS AUGER: 


FEATS AZ E AE E SH 
NUR Bes BBE 


理解 : 


FRA AEH 


等 价 : 


ER: ALA ES AURA HH RB 
具有 [属于 ] 关 系 。 
EBE FRE 
周 整 新 的 概率 。 


E 辱 加 了 刘 姥 姥 ” 进 行 学 习 时 ， 
LAS SATIRE RA, FF 


模式 两 两 对 应 的 概念 分 别 


即 事实 性 概率 <1。 狭义 生成 是 集 
非 纳 入 更 多 的 信息 来 影响 入 


学 习 : 在 获得 事实 性 知识 如 “ 林 黛 3 
起 [ 林 售 玉 辱 加 刘 姥 姥 ] 这 条 新 知识 关 


损失 ， 除 


AREKEA BB PL 
辱骂 页 政 ] ?， 前 者 是 基 模 式 ， 后 者 是 派生 模式 ， 两 个 


il 


解 为 [人 辱骂 人 ]， 


这 里 主要 探讨 最 本 质 的 一 种 幻觉 即 生成 型 幻觉 , 其 技术 原 
性 ”的 问题 


“可 能 性 当 着 必然 


的 规则 是 不 同 的 ， 在 DCN 的 体系 里 ， 这 几 下 
行 实现 。 我 们 先 假设 系统 里 已 经 存在 一 些 知识 [林黛玉 属于 人 ]， 


田 三 


理 概 括 来 说 就 是 
\ 体 如 下 分 析 : 


算法 都 


Hı 


[人 辱 攻 人 ] 的 事实 性 概率 <1， 因 为 
E， 但 不 具有 事实 性 )， 那 么 ; 


自 下 而 上 的 计算 ， 没 有 概率 损失 。 


这 些 算法 如 下 : 


为 [林黛玉 辱骂 贡 政 ]， 完 全 等 价 。 


合 维 


派生 模式 首先 将 直接 继承 基 模 式 的 参数 包括 概率 ， 


, 凭空 的 直 


接生 成 还 会 造成 产生 概率 


设置 =1， 新 知识 存 入 系统 完成 学 习 和 记忆 。 


FEMA 


首先 进行 理解 ， 构 建 
把 事实 性 概率 重 载 


显然 ， 从 可 信 信 息 


源 学 习 到 的 知识 和 


系统 上 自己 赁 


空 生成 的 信息 是 不 同 的 ， 尤 其 体现 在 事实 性 概率 不 同 。 

总 体 来 说 ， 属 于、 派生 、 等 价 等 关系 具有 截然 不 同 的 语义 ， 如 果 用 概率 来 表达 ， 也 必须 
区 分 不 同方 向 的 推算 概率 存在 <1 和 =1 的 本 质 的 不 同 。GPT 里 只 有 一 种 单 向 的 概率 计算 
只 根据 概率 相对 大 小 来 判断 结果 ， 底 层 算法 从 根本 上 就 难以 实现 概率 =1 的 计算 任务 。 

@ ”生成 任务 和 查询 任务 的 区 别 

而 人 类 提出 的 任务 有 不 同 的 目的 ， 理解、 查询 、 生 成 是 完全 不 同类 型 的 任务 ,对 结果 的 
正确 性 判断 有 不 同 标准 ， 这 些 标准 本 身 是 完全 明确 的 。 

[生成 ] 任 务 遵循 的 标准 是 概率 可 能 性 ， 而 不 要 求 概率 =1 的 事实 性 。 就 应 该 使 用 [生成 ] 算 
法 ， 比 如 [编造 一 个 “辱骂 ”的 故事 ]， 就 可 以 根据 [人 辱 攻 人 ] 的 知识 派生 出 [ 张 三 辱 区 李 四 ][ 林 
袋 玉 辱 轨 张 三 ][ 林 袋 玉 辱 多 蔷 政 ]... 等 无 限 多 的 结果 ， 这 些 结果 都 满足 任务 的 要 求 。 


GPT 的 广义 生成 全 


法 很 适合 


这 样 
满足 任务 的 要 求 。 


而 [查询 ] 任 务 遵循 的 是 概率 确定 性 , 即 概率 =1 AS 


也 就 是 模式 匹配 入 


法 。 


的 泛 化 知识 ,运用 向 量 计 和 


1 说 明 : 在 小 说 [ 红 


OPK Ae 改 ” 
别 标准 ， 


3 在 集合 维 


KESH 


可 


LB Ei FA 


楼 梦 ] 中 ， 发 生 过 
2? 本文 反复 提 到 知识 层级 、 知 识 和 数据 的 概念 。 这 
则 是 更 低层 的 知识 ， 
以 进行 参数 化 表达 。 

义 生 成 存在 多 个 正确 的 结果 (人 : 


于 这 种 狭义 生成 任 


E A: 


FP, 由 于 通过 训练 学 习 获 得 了 [人 
对 这 条 知识 进行 派生 生成 , 就 可 以 产生 类 似 上 述 的 各 和 有 


BSCE, 正确 的 处 理 


但 并 不 存在 林 售 


辱骂 
Es 


3A] 
果 ， 


需要 用 [查询 ] 算 法 ， 


玉 辱 加 页 政 的 事 。 


=) 


即 更 接近 于 数 # 


开 


型 的 例子 : 


里 是 


定 的 结果 ， 具 有 较 大 容错 性 。 


这 是 目 


HY > 各 种 和 9 
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“LEGA” Æ m 
Bo XIE, MRAM WES 


HB AERE HEE), 
成 式 AI 获得 较 大 成 功 的 重要 原因 。 


层 的 知识 ， 
层级 具有 明确 的 六 


i) 


不 需要 唯一 确 


例如 


， 对 于 [查询 一 个 “ 辱 久 ”的 故事 ] 的 任务 ， 


实 知识 i 
价 复制 输 
计算 出 的 


A 


EW 


ITERATA, WOR VLA RIP 
出 ， 如 果 没 有 满足 的 结果 ， 应 该 给 


H =H AN 
结果 理论 上 是 完全 稳定 可 靠 的 ， 


H 
u 


H 


(这 


列子 


H 


有 E 边 排除 
而 对 


BOT (PR KE 


是 这 种 典 


规则 的 支持 ， 对 不 同 的 知识 进行 的 概率 计算 和 选择 缺乏 可 靠 性 ( 


H 
EE 


掉 ， 这 个 处 理 也 依据 严格 的 


于 GPT 来 说 , 仍然 月 
加 页 政 ] 的 句子 ， 


加 页 
型 的 幻觉 产生 的 根本 原因 。 


E 成 ]。 某 种 角度 来 说 是 对 外 


模式 ] 而 直接 派生 为 答案 ， 实 际 应 月 


HF 


EL TI 


并 且 


执行 [And] 计 算 保证 模式 的 整体 性 


这 样 ， 问 


已 经 


概率 


> AWA 


题 模 式 和 事实 知识 部 分 


很 大 ) 误 导 ， 而 形成 不 合理 


方式 来 缓解 幻觉 但 并 不 能 彻底 解决 : 知识 不 可 
户 提出 和 知识 相悖 的 问题 甚至 恶意 攻击 ， 此 时 ， 了 


J 6e 
O 


通过 训练 ，GPT 会 根据 [查询 ][ 编 造 ] 等 任务 词汇 来 
[ 基 模 式 ] 的 概率 ， 使 [ 林 锚 玉 辱 品 刘 九 姥 ] 这 条 知识 
模式 ] 来 进行 [入 


eb oy 


Ha 


EAE FS BAY SESE PERR A ARE 
j 匹 配 的 结果 ”的 回 
现 了 问题 也 可 以 ; 


， 系 统 里 边 [ 人 辱骂 人 ] 的 知识 也 会 得 到 匹配 ， 但 这 条 知识 层级 高 ， 要 从 结果 
论 基 础 来 进行 。) 
旧 同 一 种 生成 算法 来 执行 ,如果 同 检 
j 生 成 任务 的 方法 得 到 的 结果 不 符合 查询 任务 的 要 求 ， 这 就 


查询 不 至 


BA 
EA 


的 选 ! 


E 务 进行 了 区 分 ,但 是 这 种 概率 ; 


的 方法 应 该 是 将 问题 作为 模板 对 事 


[= HA 


KES HUE EET SE 
答 。 这 样 的 方式 
付 确 地 退 询 然后 纠正 。 


根据 前 述 的 [人 辱骂 人 ] 来 生 


响 选择 不 同 的 知识 作为 进行 生成 的 
概率 大 于 [人 纯 器 人] 的 知识 作为 [ 基 
ed ORS PUTTS 


E 务 要 求 多 参数 问题 模式 中 包含 的 每 一 个 参数 都 被 知识 模式 匹配 满足 , 需要 
E, mi GPT 唯一 的 基本 算法 
匹配 就 可 能 达到 概率 相对 最 优 而 被 
个 “林黛玉 辱 吕 贾 政 ” 的 故事 ] 可 能 被 [林黛玉 辱 吕 刘 九 姥 ] 的 事实 知 i 
的 幻觉 结果 。 检 索 增 强 
4s, 而 即便 知 


至 将 用 户 问 题 自身 当成 [ 基 


经 常 发 生 这 种 现象 )， 仍 然 会 出 现 各 种 幻觉 错误 。 


一 生成 算法 难以 满足 这 个 要 求 。 
乍 为 结果 。 例 如 [查询 一 
只 (前 边 两 个 参数 满足 ， 

是 试图 增加 更 多 知识 的 


等 方法 就 是 
识 进行 了 穷 举 ， 也 无 法 防止 


E 确 


在 实 
有 明确 的 


际 场 景 : 
任务 指示 关键 字 , 例如 : 一 个 生成 人 


匹配 的 结果 ”的 合理 回答 ， 而 不 是 选取 一 个 “最 接 i 
， 一 个 任务 还 会 娩 套 多 个 子 任务 ,这些 子 伯 


ZA: 


可 


觉 信息 


R 


TRA Ha CO TRB DEEA 


Sb bb 
He HK 


的 模式 匹配 算法 可 以 给 出 “查询 不 到 
近 ” 的 知识 来 返 


回 从 而 产生 幻觉 。 
类 型 


E 务 具有 不 同 的 类 型 ， 并 不 会 都 
套 着 多 个 要 求 事实 查询 的 参数 。 如 


AIS 


法 处 理 


将 很 难 避 免 幻觉 的 产生 。 并 且 弥 


H 
C I 


可 能 体现 得 非常 隐蔽 ， 让 


对 了 


E 务 和 子 任 


法 进行 处 理 。 


j 户 无 法 察觉 ， 这 可 能 导致 更 加 严重 的 后 果 。 
因此 ， 解 决 办 法 是 要 做 两 方面 的 工作 : 
通过 深度 的 语义 分 析 ， 准 确 区 分 不 同人 
六 不同 的 任务 类 型 ， 选 取 正 确 的 基本 和 


E 务 


的 类 型 。 


H 


2.4. 表达 式 计算 等 问题 : 结构 化 层级 表达 和 计算 


知识 
级 的 结构 
构 化 层级 


目前 


总 
异 


EH, 


的 层级 表达 和 计 


mei 
H 


非常 习 


及 


表达 和 计生 


Akb 
Ke o 


然 这 种 层级 并 不 总 是 和 语言 的 组 


织 结 


FINA 


图 像 的 层级 结构 非常 显著 ， 而 语言 的 语义 也 完全 是 层 
构 完 全 一 致 。 而 GhatGPT 缺乏 严格 的 结 


BE 


» ChatGPT 自身 的 算法 解决 不 了 


ores 
A fai 4 


的 


表达 式 计算 ， 它 或 许 能 正确 回 


ET 


35+62=97 这 个 表达 式 ， 但 实现 的 本 质 是 在 庞大 的 语料库 里 完整 地 匹配 到 35+62=97 这 个 句 


子 ， 而 不 


三 | 
XE 


真正 的 数学 计生 


。 所 以 如 果 询 问 “23456789+9876543= 多 少 ” 将 大 概率 返 


回 不 了 


IEW 


总 是 将 这 些 字符 拆 解 , 看 着 局 平 的 一 维 字符 序列 , 每 个 字 
根本 不 可 能 得 到 正确 的 结 


的 计算 模式 也 很 不 合理 
局 限 。 而 层级 化 的 计算 模式 下 ， 一 篇 
行 计算 ， 而 只 限定 在 局 部 范围 内 计算 ， 
可 级 数 增长 ， 类 似 人 脑 那 样 。 


要 的 意义 。 这 不 仅 是 解决 表达 式 计算 
性 能 的 优化 问题 ， 绝 对 是 实现 AGI AY Be ee ti 


算 ， 在 


10 万 字 的 文章 中 的 每 个 字符 不 应 该 对 其 它 字 符 


随 上 下 文 增长 的 计算 量 应 该 接近 线性 增长 ， 而 非 几 
因此 , 对 知识 实现 真正 的 层级 化 表达 和 计算 具有 重 
这 样 的 局 部 问题 ， 也 不 仅 是 计生 
上 述 例子 还 体现 了 另 一 个 问题 : 向 量 不 适合 精 古 
级 结构 的 观点 来 看 ， 一 个 层级 结构 的 根 可 以 月 
构 ， 这 种 能 力 是 向 量 不 具备 的 。 因 


外 结果 1。 


这 里 的 根本 问题 在 于 GPT 缺乏 真正 的 层级 信息 表达 ?。 


从 


这 种 情况 下 概率 计生 


这 个 例子 可 以 看 到 , GPT 对 于 常规 自然 语言 
源 的 极 大 的 浪费 ,不 但 很 耗 能 ， 还 会 存在 上 


果 。 


符 分 


“23456789+9876543” 
看 着 两 个 层级 ,两 个 数字 分 别 作 为 低层 级 的 一 个 整体 , 参与 更 高 层级 的 加 法 的 计算 。 而 GPT 


下 文 长 度 的 


K3 


显 


然 应 该 


别 参与 对 下 一 个 字符 的 概率 计 


表达 数字 也 


的 ， 将 这 两 者 进行 整合 是 一 个 有 价值 的 课题 。 
2.5. 知识 不 一 致 问题 : 双向 关系 表达 与 计算 


也 无 法 # 


GPT 存在 严 
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举例 来 说 : 


能 自动 


这 个 问题 产生 


口 


Hik 
理 出 [B 是 A]。 例 如 ， 当 我 们 教会 一 个 模型 [华盛顿 


多 


HK 
处 到 


答 [ 美 


是 更 
m 


` 
6i 


的 


这 种 模式 很 可 能 是 解决 AGI 的 关键 。 
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系 奉 代 单 


为 两 个 完全 不 


多 态 上 不 同 但 本 


显然 , 这 种 知识 的 一 致 性 对 了 
性 表达 和 记忆 ， 
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F 总 统 是 谁 


的 知识 不 一 致 问题 。 


究 发 现 ， 大 模型 身上 存在 一 种 [逆转 诅 驼 ]， 有 
国 第 一 任 总 统 ] 
国 第 一 任 总 统 是 华盛顿 


除非 另外 再 教会 [ 美 
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的 原 
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HERH 


因 很 简单 ， 


了 从 前 往 后 的 字符 推算 ，[ 华 盛 顿 是 美 
同 的 连接 和 计算 ， 而 不 是 一 条 整体 性 的 知识 。 


这 个 问题 暴露 了 GPT 这 样 的 方式 并 没有 学 到 真正 的 结构 化 知识 这 一 本 质 事实 ! 增加 更 
果 上 缓解 ， 但 对 于 提升 整体 


王 何 问 题 , 对 一 条 整体 的 知识 就 应 该 是 整体 


以 不 


的 信息 可 以 从 效 


同形 态 灵活 运 


决 方法 是 模拟 人 类 的 方式 ， 具 体 来 说 ， 首 先 ， 用 带 双向 概率 的 语义 化 关 
， 这 种 关系 可 以 表达 完整 的 


因 


-人 类 来 说 没有 


Jo 


识 


吾 义 知 


加 合理 、 有 效 、 完 整 的 知识 表达 。 


再 ; 


“场景 拟 合 ”表达 和 计算 模式 。 
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力 不 能 
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用 


插 


到 模型 里 


2 GPT 的 多 


层级 
相 比 ， 难 以 实现 更 强大 的 层级 组 合 1 


件 来 解决 数学 计算 问题 ， 


这 不 能 解决 自身 存在 


司 第 一 任 总 统 ] 和 [ 美 


(INI 


指标 之 一 ! 
以 表达 确定 性 概念 。 从 层 


,首先 是 对 计算 资 


一 个 ID 化 的 概念 表示 ， 以 精确 
此 ， 不 能 仅 用 向 量 来 表达 一 切 ， 概 念 ID 化 表达 也 是 必要 
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FE 
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同时 也 能 


， 执 行 复合 任务 的 综合 智能 水 平 将 受到 极 大 限制 。 


经 网 络 结构 隐 含 地 表达 J 
联 套 计算 。 


智能 


的 缺点 。 如 果 表达 式 计算 这 样 


定 的 层级 信息 ， 但 能 力 不 能 和 真正 语义 化 的 


地 代表 整个 结 


为 GPT 是 一 个 单 向 概率 表达 和 计算 的 神经 网 络 ， 更 
国 第 一 任 总 统 是 华盛顿 ] 将 被 


的 基础 


后 ， 它 并 不 
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AE 


水 平 并 无 神 益 。 


于 执行 概率 计算 ， 这 
步 , 这 种 关系 组 合成 的 语义 结构 可 以 实现 DCN 


au 
He 


FR Aa 


2.6. 推理 能 力 弱 的 问题 : 结构 化 推理 表达 与 计算 


依据 DCN 的 观点 ， 粗 略 ! 来 说 : 理解 、 生 成 主要 指 一 个 树 形 网 从 下 人 


向 计算 , 计算 的 深度 较 浅 且 相 对 固定 , 这 是 智能 的 基础 。 而 
向 转换 ， 计 算 深度 可 以 非常 深 且 范 


理 能 力 ， 是 一 个 很 大 的 
提升 推理 能 力 和 智能 水 3 


构 的 根本 问题 。 
© GPT 对 于 推 


难以 精确 定位 调整 , 随 着 更 
j 更 概念 化 、 结 构 化 的 方式 来 表达 推理 
径 。 假 设 思维 链 等 方式 的 学 习 训 练 让 系统 学 习 了 和 


将 这 些 知 识 优化 为 更 本 质 的 结构 化 表达 以 及 扩展 


@ FERH 


E 上 和 从 上 往 下 的 纵 
E 理 主要 指 多 个 树 形 网 之 间 的 横 
围 很 发 散 ， 这 决定 了 智能 的 上 限 ?。 
相对 于 过 去 完全 缺乏 以 自然 语言 形态 展现 推理 能 力 的 状况 ，GPT 实现 了 相当 程度 的 推 
步 。 但 以 更 高 的 智能 标准 来 看 目前 的 推理 
F, 不 只 是 增加 语 料 和 训练 工作 量 的 问题 , ie A RR EAS 


水 平 还 是 比较 弱 ， 要 持续 


知识 的 表达 和 其 它 知识 一 样 , 都 是 黑 盒 的 结构 , 缺乏 稳定 性 可 靠 性 
多 推理 知识 的 加 入 问题 会 更 加 凸显 .和 前 边 的 综述 一 致 ， 


知识 并 进行 推理 计算 , 是 真正 有 效 的 解决 途 


ea 


知识 达到 了 


更 优 的 效果 。 当 然 ， 推 理 结 构 比 简单 结构 更 为 复杂 ， 是 传统 知识 
效 解决 的 难题 ， 


需要 更 好 的 结构 设计 理论 来 解决 。 


Ta 


SAES, UPR EK Bl 


图 谱 等 技术 没有 有 


定 的 效果 , 那么 


次 原子 


计算 应 该 是 


字符 地 推理 。 后 者 不 但 计算 量 大 ， 还 容易 造成 信息 不 一 致 的 问题 。 


© 多 分 文 多 层级 的 复杂 推理 : 在 实际 场景 
级 的 推理 。 第 1 级 推理 选取 的 最 大 概率 分 支 ， 未 必 能 产生 多 级 推 形 
如 果 没 有 形式 化 表达 、 可 分 解 组 合 、 动态 参数 的 推 


@ 双向 推理 缺陷 : 同 前 所 述 ，GPT 的 推理 是 单 向 的 ， 必 须 提 刊 


来 表达 和 计算 。 


性 问题 : 同 前 所 述 , 推理 计算 需要 更 严格 的 层级 化 和 整体 性 的 要 求 ， 
个 模式 向 另 一 个 模式 完整 转换 , 而 不 应 该 一 个 字符 一 个 


为 双向 推理 的 整体 结构 


的 推理 要 


而 对 广 域 的 信息 


进行 多 分 支 多 层 


后 的 最 优 结果 。 


J 


回溯 调整 的 模式 ， 很 难得 到 理想 的 结果 。 


@ 综合 任务 融合 ; 强大 的 智能 需要 实现 推理 、 规 划 、 


广义 的 推理 计算 ， 但 要 将 它们 有 效 整 合 必须 要 有 合理 


2.7. 知识 和 数据 混杂 问题 : 知识 和 数据 分 层 表达 


GPT 没有 对 知识 的 层级 定义 ， 不 能 


m. RNR 


解决 方法 是 将 知识 和 数据 分 层级 表达 和 管理 


执行 的 综合 能 力 。 这 些 任 务 都 是 
的 结构 和 状态 参数 。 


效 区 分 知识 和 数据 ， 对 知识 和 数据 混杂 在 一 起 管 


结构 和 更 灵活 的 多 向 推理 和 可 


E， 持 续 地 产生 着 资源 的 重复 
,计算 时 可 以 无 颖 融合 , 但 


于 ， 反 而 使 问题 更 加 复杂 。 


浪费 。 


] prompt 等 模式 和 外 部 信息 结合 时 ， 模 型 内 部 信息 和 外 部 信息 其 实 分 别 都 混 
合 着 知识 和 数据 ， 并 没有 真正 将 知识 和 数据 分 3 
由 于 难以 分 离 出 正确 知识 进行 有 效 共 享 , 业界 都 在 以 不 同形 式 反 复 进 行 模型 训练 , 产生 
了 很 多 存在 大 量 见 余 但 又 不 统一 的 黑 盒 知识 局 


管理 结构 上 可 以 


灵活 分 解 , 每 一 条 知识 的 重要 性 和 权威 性 也 能 精确 定义 和 管理 。 高 层级 的 确定 性 知识 可 以 充 


1 各 种 计算 存在 紧密 上 
2 10 层 以 内 的 派生 结构 4 


接近 “ 快 思考 ”; 
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分 共享 ， 低 层级 的 数据 灵活 存储 ， 不 能 形成 共识 的 知识 和 数据 还 可 以 维护 不 同 的 版 本 。 这 样 


的 关系 ， 例 如 : 理解 和 生成 也 会 伴随 推理 ， 这 里 只 能 做 粗略 的 划分 。 
RAE) 或 嵌 套 结构 (领域 维 ) 就 具有 了 足够 强大 的 表达 能 力 ， 


能 够 快速 处 理 ， 


储 理 会 有 非常 深 的 链条 ， 每 个 环节 都 有 不 确定 性 ， 就 会 体现 为 “ 慢 思考 ” 


可 以 构建 起 一 个 更 合 到 
知识 和 数据 分 层 管 
维持 一 个 较 小 的 规模 ， 这 些 人 类 
新 闻 ) 都 应 该 体现 为 数据 独立 存储 
以 产 4 
2.8. 知识 学 习 问题 : 多 层级 增 


E, 还 利于 


LLM 是 整体 黑 盒 结构 ， 无 法 拆 分 出 单条 知识 进行 调整 ， 也 无 法 有 
能 破坏 已 有 知识 的 灾难 


误 知 识 ， 并 导致 学 习 新 知识 时 可 


解决 方法 是 在 知识 分 层级 的 基 硬 


Ly 
Lf 


的 知识 和 数据 维护 体系 。 


E 技 术 层 面 上 协助 解决 数据 版 权 问题 。 
tk 识 的 知识 不 存在 版 权 问题 。 大 量 的 低层 级 知识 (例如 各 入 


p 


正 的 高 层级 知识 


i 


， 并 可 以 细 化 到 对 每 条 知识 进行 版 权 方面 的 标识 ， 甚 至 可 
出 适应 智能 化 时 代 的 全 新 商业 模式 。 


量 式 学 习 模 式 


效 区 分 正确 知识 和 错 
生 遗 忘 等 问题 。 


上 ,实现 实时 和 增生 


可 以 形成 类 似 人 类 学 习 知 识 的 高 效 模 
学 习 ， 更 稳定 可 靠 地 持续 积累 知识 。 


E 式 的 学 习 。 由 于 每 条 知识 可 以 拆 分 ， 


式 , 先 


真正 的 层级 化 知识 的 学 习 会 具有 更 高 的 效率 。 浅 层 


只 需要 修改 更 外 围 的 知识 库 。 如 果 需 要 调整 高 层级 的 知识 , 再 传递 修改 高 层级 的 基础 知识 库 。 
通常 ， 越 高 层 的 知识 数量 越 少 ， 且 学 习 调整 更 为 低频 。 
2.9. 不 确定 信息 的 对 齐 问 题 : 确定 性 概念 表达 


就 是 自然 语言 处 到 
是 各 个 i 


ij} 


al EZR HA 


第 的 知识 ， 然 后 仅 对 新 知识 进行 增 量 


的 知识 更 多 ， 学 习 动 作 更 为 高 频 ， 但 


习 然 语言 存在 着 复杂 的 歧义 性 ,同一 个 自然 语言 词 ; 
LE 的 核心 问题 '。 解 决 上 收 义 问题 的 关键 是 要 充分 运 月 
[进行 相互 推算 ，GPT 本 质 上 就 是 这 样 做 的 : GPT 内 部 将 词 》 


转换 为 向 量 , 并 且 让 各 个 向 量 相互 推介 


汇 ， 从 输入 和 输出 的 表象 来 间接 推断 


但 是 GPT 理 


套 完备 的 语义 标准 可 以 作为 目标 ， 因 


+. 
H 


自然 的 


言 理解 
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以 消除 歧义 , 最 终 根 据 结 


[往往 对 应 着 多 个 不 同 的 语义 , 这 一 
上 下 文 信息 ， 具 体 就 
[ 拆 解 成 Token 然后 
中 转换 为 Token 和 词 


RAE 
度 非常 好 ?。 


准确 


解 形成 的 隐藏 语义 概念 尤其 是 整体 结构 很 难 表 达 出 来 ， 目 前 


至 并 没有 一 


此 GPT 输出 


Kea RUA ce BAI So XA 


i 造成 语义 概 


念 以 及 语义 结构 难以 对 齐 的 问题 , 只 依靠 自然 语言 的 形式 , MELA SEE 


靠 的 信息 对 接 和 共享 。 
SEN 


众所周知 ， 系 统 之 间 信 息 交 
来 说 , 一 个 全 局 性 的 语义 概念 和 结构 


RAG 


Cat Ril 


EF 信息 标准 的 一 致 特 


见 多 个 系统 和 模型 之 间 可 


E。 因 此 ， 即 使 仅 从 工程 


im 


也是 非常 必要 的 。) 


了 确 


定性 的 语义 表达 ,才能 有 效 地 在 


系统 之 间 共 享 、 传 递 信 
务 分 解 组 合 、 多 技术 融合 、 长 期 记忆 


Fh 并 且 任 意 两 个 系统 都 可 以 直接 对 接 而 不 再 要 求 必须 


存 取 等 问题 都 可 以 


通过 GPT。 任 


ba 


好 地 解决 。 


2.10. 偏见 和 越狱 问题 ， 基 于 语义 的 绝对 性 信息 控制 


偏见 、 越 狄 、 安 全 等 信息 控制 问题 ， 也 是 LLM 技术 面 对 的 难题 。 
现在 通常 是 通过 不 断 训练 、 微 调 、prompt 来 试图 解决 问题 , 但 这 种 模式 很 难保 证 结果 的 
稳定 可 靠 和 最 终 收 化 。 信 息 是 相互 影响 的 ， 例 如 假设 一 个 prompt 能 起 作用 ， 那 么 外 围 再 
1 如 果 所 有 自然 语言 总 是 能 表达 为 信息 又 够 丰富 且 没 有 歧义 的 标准 结构 ， 在 这 个 基础 上 ， 即 使 用 堆积 人 
工 的 研发 方式 也 能 实现 很 多 复杂 的 智能 任务 了 
2 从 多 环节 的 端 到 端 对 话 结果 判断 第 1 个 环节 的 理解 是 否 达到 人 类 理解 的 标准 仍然 存在 疑问 ， 传 统 机 器 
翻译 技术 显然 并 不 真正 理解 语义 ， 但 同样 能 输出 差 不 太 多 的 结果 。 某 种 意义 来 说 ， 机 器 翻译 具有 相对 唯一 
的 结果 标准 ， 错 误 容 易 被 人 类 发 现 ， 而 发 散 性 的 生成 对 话 的 问题 反而 难以 被 发 现 。 
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次 加 码 的 另 一 个 prompt 也 能 要 求 系统 关闭 上 一 


决 概率 绝对 性 的 问 


题 。 


解决 的 方法 是 两 方面 : 
要 定义 语义 概念 和 结构 , 对 [偏见 ]、\ [敏感 信息 ] 等 语义 也 进行 准确 定义 ， 


首先 仍然 
并 


Al 


能 实现 


=j 
FE 


对 


输入 输出 信息 都 能 进行 精确 


然后 以 精确 语义 为 依据 , 可 以 在 任何 环节 插 


M prompt 的 作用 !。 概 率 最 优 的 模式 无 法 解 


的 语义 解析 和 归 类 。 


予 绝对 的 控制 权 ( 概 率 设置 为 =1， 不 允 询 
3. DSM 深度 语义 模型 简介 


DSM(Deep Semantic Model) 深 度 语 义 模型 是 DCN(Dynamic Cognitive Network) 动 态 认 知 


网 络 理 论 针对 语言 


+. 
Wa 


义 处 理 的 具体 实现 。 


F 其 它 计 算 超越 )。 


入 可 靠 的 信息 管控 , 对 特定 处 理 规则 赋 


和 传统 知识 
算法 闭环 体系 、 概 率 表达 和 


图 谱 相 比 ， 


构建 专题 数据 库 ， 为 智能 系统 提供 数据 而 x 


3.1. 深度 语义 结构 


DSM 可 以 实现 深度 语义 表达 、 完 整 语 》 


表达 、 层 级 语义 表达 、 


计算 、 对 接 自 然 语 言 等 重要 能 力 ， 形 成 了 完整 的 语言 语义 表达 和 
计算 体系 ， 具有 成 为 一 个 独立 完备 的 智能 系统 的 潜力 。 相 对 而 言 ， 传 统 知识 图 谱 通常 更 适合 
以 作为 自主 驱动 的 智能 系统 。 
深度 语义 模型 有 较 多 内 容 ， 本 文 只 对 技术 要 点 进行 简单 介绍 。 
了 DCN 理论 里 提出 的 两 维度 


深度 语义 模型 的 基础 在 于 其 特有 的 DSM 结构 定义 ， 采 用 


多 层级 的 树 


深度 语义 结构 还 是 一 种 表达 和 | 


`A 
it 


网 结构 ， 并 根据 语言 的 特点 进行 了 优化 。 


体 化 的 结构 ， 结 构 本 身 表 达 了 概念 化 的 语义 知识 ， 


也 描述 了 计生 
建 、 组 合 和 变换 。 


的 基本 


规则 和 参数 ， 各 种 计算 体现 为 结构 依托 自身 的 语义 和 参数 进行 各 种 创 


法 进行 相互 转换 。 
语义 和 语言 的 转换 主要 通过 两 种 出 
态 


识 体系 。 


3.2. 语义 和 语言 分 离 


DSM 将 语义 模型 和 语言 模型 完全 分 离 ， 语 义 独 立 于 自然 语言 ， 两 者 通过 


里 解 和 生成 算 


e 


语言 来 ; 


© 语义 概念 拥有 语言 形态 。 
@ 语义 角色 拥有 语言 角色 。 
© 


行 外 在 


达 ， 用 语义 进行 内 在 表达 和 计算 思考 ”。 


有] 关系 进行 描述 和 计算 : 


语言 理解 为 语义 与 语义 生成 语言 的 互 逆 运 算 共享 同 


套 关 系 结构 。 


3.3. 分 层级 的 语义 知识 和 数据 体系 


遵循 一 个 基本 的 原由 


Iml 


CE 


高 层 的 知识 更 基 而 


1 实际 上 ，GPT 根本 不 能 严格 


EH, H 


上 一 “人 类 的 知识 体系 是 分 层级 的 ”， 


分 系统 设计 者 为 其 训练 的 规则 和 普通 


解 和 表达 更 低层 知识 的 


DSM 构建 了 多 层级 的 语义 知 


胡 据 ， 同 时 ， 更 高 层 的 知识 的 数 


] 户 对 其 


下 达 的 命令 ? 
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量 更 有 限 


。 语 义 模 型 的 可 解释 


H 


物 ][ 事 件 ] 
之 间 的 内 
基础 
详细 解释 


[事件 角色 ][ 表 达 
在 关系 以 及 特定 的 入 


。) 


下 层级 的 大 量 的 知识 更 多 , H 


算 ， 且 原 


知识 
上 完全 同 


在 存储 管理 上 则 可 以 实 下 
系 , 不 同 层 级 的 知 


性 和 可 计算 ， 
[概念 ] [实体 ] [关系 ] [角色 ] [存在 ][ 度 
式 ][ 方 程 ]... 等 , 对 这 些 最 基础 的 和 
法 实现 ， 以 形成 对 各 和 
语义 知识 体系 蕴涵 丰富 的 内 容 ， 具 体 参 见 


t 


j 


= 


要 由 最 顶层 的 知识 来 体现 。 最 顶 


民 的 知识 包括 


4 


][ 程 度 ][ 集 合 ][ 区 间 ] 


[比较 ][ 序 列 ][ 空 间 ][ 时 间 ] [ 事 


mmj 


Li 


LE 论 上 可 以 无 限 扩充 , 但 都 用 


NUR AMM HET EC, 还 要 构建 相互 
表达 和 计算 的 基础 。(DSM 的 


VE Rat 


开源 的 原型 系统 DSM1.0， 这 里 不 逐条 进行 
高 层 的 知识 来 进行 解释 和 计 


则 上 不 


分 层级 的 理念 也 适用 了 
构 且 可 以 无 颖 融合 。 


识 


据 则 可 以 
aA AIS 


a+ 


ESIR, FPO 
言 表达 ， 


J 以 设 


3.4. 继承 、 重 载 和 聚合 


DSM X 


级 知识 的 
重 载 定 义 


上 由 


DSM 将 [属于 ] 关 系 作为 变量 绑 定 、 模 式 匹配 等 计算 的 基础 。 将 传统 
行 了 统一 ，[ 变 量 赋值 绑 定 引 [问题 求解 ] 等 处 理 也 都 
DSM 的 核心 是 [集合 ][ 概 率 ][ 面 向 对 象 ] 等 
多 继承 和 
依据 单 继承 和 绝对 性 构建 概念 体系 存在 的 浆 端 。 


向 量 存在 很 紧密 的 联系 。 基 类 是 多 层级 的 ， 表 达能 力 更 强 ， 向 量 可 以 看 着 扁平 


[派生 ] 和 [ 
进行 了 统 


DSM 采用 多 基 类 
重 载 4 等 机 制 ， 


多 基 


层级 的 多 基 类 。 基 类 可 以 代替 向 量 ， 而 反之 不 行 。 初 级 的 感知 智 
认 知 智能 , 要 运用 多 层级 基 类 结构 才能 达到 更 高 的 压缩 率 。 一 个 基 类 可 以 等 效 于 
氏 层 级 的 知识 和 数据 ， 就 没有 必要 复制 上 万 个 向 量 了 。 


的 基 类 和 


IRA 
， 对 变化 的 信 


息 (包括 


于 需要 针对 不 同 知识 进行 不 同 的 外 


法 实现 !。 


-知识 和 数据 的 划分 ,数据 视 为 较 低层 级 的 知识 ,两 者 在 理论 


见 “ 知 识 和 数据 分 离 ”， 由 于 低 
和 数据 可 以 分 开 存 储 。 计 入 
计 各 种 专 | 


4E 


JH 


j 属于 关系 和 继承 机 制 来 实现 知识 的 层级 表达 ， 低 层级 知识 首先 默认 继承 高 
网 络 继承 基 网 络 的 一 切 信息 。 而 针对 派生 网 络 相 对 于 基 网 络 


概率 分 布 参数 等 ) 进 行 修改 。? 


实例 化 ] 两 种 关系 i 


o 


的 体系 , 多 个 


类 


和 


解决 了 很 多 本 体 论 方法 试图 


基 类 可 以 用 


层 知 识 对 ry 层 知 识 是 单 向 依赖 关 


处 理 时 高 层 知 识 必须 加 载 ， 中 低层 知识 和 数 
构 (例如 : 关系 数据 库 ) 进 行 优 化 表达 一 也 包 
自然 语言 可 以 视 为 深度 语义 的 压缩 形式 。 


= 
ZS 


的 信息 变化 就 进行 


用 向 对 象 方法 中 的 
这 种 方式 


田 


里 论 和 方法 的 融合 。 
聚合 等 方式 结合 到 一 起 。 结 合 概率 、 


kA 
结 A 


HBE. 
A 


=) 


向 量 ， 这 样 ， 大 量 


因此 ，LLM 的 单 层 级 多 维度 向 量 表达 和 DSM 的 多 


bb 


能 用 


可 量 非常 好 ， 而 高 级 的 
组 更 基础 


层级 多 基 类 派生 表达 两 者 各 有 优势 ， 


把 两 者 进行 有 效 融 合 是 一 个 具有 重要 意义 的 课题 。 

3.5. 双向 关系 和 树 形 网 结构 

和 其 它 概念 一 样 , DSM 里 的 关系 也 是 逐 级 往 下 派生 ,最 顶层 是 [属于 ]、[ 聚 合 ]、 [拥有 ]、 

[推理 ]、[ 层 级 ] 这 几 种 最 基本 的 关系 。 这 里 进行 简单 的 说 明 ， 详 细 解 释 参 见 [引文 1]。 

1 当然 ， 具 体 业 务 应 用 也 可 以 根据 需要 针对 特定 知识 拓展 算法 实现 。 

2 派生 网 络 继承 基 网 络 的 信息 ， 无 变化 的 信息 无 需 额外 存储 ， 就 是 实现 “智能 即 压缩 ”的 本 质 体现 。 

3 “代数 大 脑 ， 揭秘 智能 背后 的 逻辑 ”一 书 中 有 很 多 有 价值 的 内 容 ， 针 对 其 中 提 到 的 “变量 绑 定 ”， 用 
派生 和 聚合 的 理念 可 以 更 好 地 从 理论 上 解释 ， 也 更 容易 从 实际 形态 上 进行 实现 。 

4 重 载 等 机 制 允许 用 新 的 知识 重新 定义 旧 的 知识 ， 并 结合 概率 表达 等 机 制 ， 避 免 了 对 知识 的 绝对 性 定义 
造成 的 两 难 问题 。 
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属于 关系 : 属于 关系 是 集合 维 上 的 关系 ， 也 叫 派 生 关 系 ， 表 示 为 [A 属于 B] 或 者 说 [B YIR 
生 A]， A 称 为 派生 概念 (或 派生 关系 )，B 称 为 基 概 念 (或 基 关 系 )。 


FARR: 是 属于 关系 的 特例 。 


聚合 关系 ;聚合 关系 将 两 个 不 同 领域 的 概念 聚合 为 一 个 整体 概念 ( 称 为 聚合 体 )， 这 个 整 
体 的 概念 对 这 些 不 同 领域 的 概念 具有 派生 关系 。 


拥有 关系 : 拥有 关系 是 领域 维 上 的 关系 , 并 派生 出 各 种 不 同 的 拥有 关系 。 注 意 : 这 里 “ 拥 
有 ”一 词 具有 很 宽泛 而 非 狭义 的 含义 。 


推理 关系 : 狭义 的 推理 关系 也 是 领域 维 上 的 关系 ， 是 两 个 模式 之 间 的 转换 。 


RRR: 是 一 个 隐 含 关系 ， 在 树 形 网 结构 中 表达 各 个 概念 对 根 概念 的 直接 所 属 关系 。 


树 形 网 结构 : 上 述 各 种 关系 可 以 组 合成 集合 维和 领域 维 上 的 树 形 网 结构 。 树 形 网 有 一 个 
根 ， 下 述 的 多 层级 的 所 有 元 素 ( 包 括 概 念 、 关 系 、 附 加 关系 )， 都 属于 这 个 根 ( 根 关 系 表达 )， 是 
整个 模式 不 可 分 割 的 一 部 分 (参见 图 2)。 


(a): 二 元 关系 的 派生 网 络 结构 (b): 树 形 网 的 派生 网 络 结构 
根 根 
(c): 节点 型 树 形 网 (d): 关系 型 树 形 网 
1 属于 关系 i 纵向 关系 O 横向 关系 


图 2: DC 网 络 基 本 结构 示意 图 


树 型 网 的 根 代表 整个 树 形 网 。 根 对 各 个 元 素 具 有 推算 的 关系 ,而 各 个 元 素 也 对 根 具 有 推 


算 的 关系 ， 只 是 各 个 推算 概率 不 同 。 


网 络 派生 : 由 于 概念 和 关系 都 可 以 派生 ， 从 而 由 概念 和 关系 构成 的 整个 树 形 网 也 可 以 进 
行 派生 ， 派 生 网 络 的 每 个 节点 和 基 网 络 的 对 应 节点 分 别 具 有 派生 关系 。 
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双向 概率 : 所 有 的 关系 都 具有 双向 的 语义 和 概率 表达 。 很 多 传统 的 基于 规则 的 系统 不 能 


很 好 地 解决 实际 问题 的 原 


因 ， 


方面 是 知识 和 规则 缺乏 层级 关系 , 另 一 方面 就 是 知识 和 规则 


的 定义 往往 是 二 值 逻 辑 , 缺乏 实际 场景 下 无 处 不 在 的 不 确定 性 信息 的 表述 和 计算 能 力 。 因 此 ， 


DSM 在 基本 结构 里 植 入 隶属 度 函 数 和 概率 等 的 表达 体系 具 


树 形 网 的 意义 分 析 : 单纯 的 树 
通 的 网 络 结构 缺少 层级 信息 , 难以 进行 问题 分 解 ; 单纯 的 树 形 结构 则 缺少 完整 地 表达 真实 ] 
景 下 的 复杂 结构 的 能 力 。 树 形 网 结构 将 树 的 层级 结构 和 问题 分 解 能 力 与 网 络 的 全 面 信息 表达 
能 力 结合 起 来 ， 将 复杂 的 认 知 表达 分 解 成 相对 简单 的 局 部 问题 来 独立 解决 ， 
有 重要 的 意义。 我 们 认为 ， 人 脑 的 运作 也 大 量 采 


3.6. 算法 体系 


DSM 里 ， 定 义 了 理解 、 生 成 、 查 询 、 推 理 、 


整 算法 闭环 体系 。 


“ 补 全 ”的 计算 。 


相当 于 将 “编码 器 ?和 “解码 器 ”进行 了 统 
是 同一 个 结构 在 不 同方 向 上 的 计算 。 

和 端 到 端的 黑 盒 计算 相 比 ，DSM 的 和 
理 ， 必 要 时 也 可 以 完全 拆 解 定 人 


两 种 计算 模型 的 统一 ， 


计算 和 连续 计算 中 。 


ite 


中 非常 基础 的 算法 。 


单一 网 络 全 向 生长 : DSM 结构 是 各 种 算法 的 基础 ， 和 名 下 
生长 算法 , 视 为 围绕 同一 种 双 维 度 多 层级 树 形 网 结构 ， 


的 算法 原理 参见 [引文 e H! 
语义 模式 


匹配 算法 


合 概率 计 和 


， 也 可 以 保证 模式 完整 


3.7. 推理 表达 和 计算 


结构 和 普通 的 网 络 结构 都 不 能 


有 非常 重要 的 意义 !。 


效 地 表达 认 知 信息 。 普 
7 


对 AI 的 发 展 具 


了 类 似 于 树 形 网 的 逻辑 结构 。 


学 习 每 几 下 


' 基 础 算法 ， 形 成 语言 语义 的 完 


' 算 法 实际 上 都 体现 为 全 向 网 络 


恨 据 不 同 已 知 部 分 而 对 未 知 部 分 进行 


， 也 是 对 “判别 模型 ”和 “生成 模型 ”这 


法 体系 是 白 盒 的 ， 各 个 环节 可 以 无 颖 衔接 自动 处 
由 化 处 理 ， 体 现 充 分 的 灵活 性 ， 并 可 以 实现 复杂 的 多 业务 融合 


推理 是 智能 系统 的 关键 算 ; 


在 DSM 中 ， 推 理 计 多 


推理 都 用 一 个 推理 结构 来 表达 ， 推 
连接 构成 一 个 更 大 的 树 形 网 。 


它们 的 基本 结构 都 相同 。 


体现 为 一 个 树 


理 结构 的 根 是 一 条 [推理 ] 关 系 ， 
当然 ， 最 基本 的 推理 关系 可 以 派生 出 很 多 更 


1 另外 ， 和 Cyc 里 [AL1] [Exiet ] “#4 


的 参数 表达 ， 利 于 实现 和 概率 结合 的 统一 计算 。 
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， 查 询 算法 也 就 是 语义 模式 匹配 算法 ， 是 整个 体系 
以 多 基 类 的 [属于 ] 和 [聚合 ] 关 系 作 基 础 规则 ， 可 以 结 
匹配 的 规则 要 求 。 


， 这 里 对 DSM 的 推理 模型 和 算法 进行 一 个 解释 。 


网 模式 对 男 一 个 树 形 网 模式 的 转换 ， 每 一 个 原子 
将 进行 推理 的 两 个 树 形 网 


\ 体 的 推理 关系 ， 


词 的 表达 方式 对 比 ，DSM 转化 为 概念 的 实例 数量 占 比 等 更 量化 方式 


形式 mo l 语 角 ， 打分 Am 源 记录 Bie 连接 
~ 
‘(eS an) OS] RE = BIS” IT] TRE 等 于 算式 TENT z 
+ emet 200 义 无 {this} DEBTI [种 充 模式 引用 ] <87 AR 正常 1[ 欧 动 | 推导 ][ 耻 高 =.… 
Mlosan wxE [Sa] RS) ERE = BIE“. D [关联 拥有 A 赋 ] en ci Be ER BUMSER. 
二 移动 © SC study [99M0 [this] [抽象 移动 | Gamez) RA 
Bonate sxa pao tisi mesnaase] ee DEA 
速度 ERR PM [this] nem) nem) [属于 
egar pa nas DESDE] Bem ma) 
Lerga ERR PM [this] [Value] [Value] [属于 
4 AR pp THAD (esi LR) [PIRES Ui) 
L UER PIO [this] (ewan) [实则 路径] < 区 于 ] 
Smee “x-a pap PARERA] ER > Ute] 
BA wk PI- [this] E (raeas) «IRF 
“x-a pao ES ponpon pam mal 
上 psm 1 PI- [this] [Value] <[ 届 于 ] 
~ SiR 2% AR Pao tisa rime nam Dwel 
上 时 问 量 22 SX KAR P- [this] [Value] <E 
[oma] 20 义 无 RSEN UR SEE s E... pienam PRSA opin 
eam © SL 中 心 pIo- fthis] [等 于 算式 ] 4[ 必 于] 
委 法 血 式 拥有 和 法 表达 式 1 SiR pop ERME 人 RAR SATII Ae Die 
~ RSG © 文 主 酒 P- [this] Gras] (ree) (RF) Aim TES (RIRPOTINES MRK... 15099009100 
上 SRC 0 Se FR paN- IA (Gai es) ase) om > Uta] AR ER ATIRSA.. 1,5, 
| Lam ox E P [this] [Value] [Value] IE 于 | Ase TES (RIRPSTINES MRE... 1,5, 
~ RT 118 PAD. IAEA memea] 秆 法 表达 式 计算 角色 mal Ak ER DRATIGI.. 25, 
| 上 英法 表达 式 计算 角色 1 义 主 酒 Poo- [this] [计算 角色 ] 时 算 角 色 ] (RF) Ass Ra (RAPSTIVESIIRE.. 1.5, 
一 RAR 2%- PIN- 1 对 法 表达 式 (asx) ees) = > Utes] AR ER GRRMST|OME| ML... 1,5, 
La 2 久 一 袜 Po fthis] [Value] [Value] [基于 ] Aik ER [ 丘 法 算式 ][ 惟 时 ][ 珍 法 -1.5 
- SEROUS Ett 4 义 PID- ERNA TA 计算 角色 > [ste] AR ER [天 法 算式 ][ 淮 导 ][ 除 法 1,5, 
二 BRAL 4 义 一 宾 slmn- (this) [Value] [Value] 4 属于] Ate ER GRAPSTIDESIBRE... 1,5, 
ETRE 4 义 前 同 PAN ERE imme 计算 角色 ma AR ER [天 法 算式 ] [推导 |[ 除 法 -2.5 
上 计算 角色 4 义 前 同 (9940. [this] MARE (RF) Ak RE DREAOTINESIIRK.. 1.5, 
~ (RONNIE) 0 义 无 [this] pee Deet) «RH Aim ER SWIRSNEA=.. 1.5 
MENEE HNR] wx paR <> [等 价 ] BRRL <ia me 正常 [EMISE 3,5, 
REER EANA] 200 义 无 mem <> (sin) <> [等 价 ] 连接 正常 SUMS.. 3.5, 
MEENEEM RAE] 0 LK KaR <P [等 价 ] = isi] 连接 正常 (6aIMES|EES-#.. 3,5,0.9,9, 


上 述 是 一 个 推理 树 形 网 的 示例 ， 这 条 树 形 网 知识 描述 对 于 一 切 [移动 ] 推 理 出 [距离 ]=[ 速 
度 ] 义 [时 间 ] 的 公式 。 在 遇 到 了 所 有 [移动 ] 为 基 类 的 应 用 题 时 ， o e 
还 是 [小 汽车 从 A 地 跑 到 B 地 ] 还 是 [小 明 从 家 里 走 到 学 校 ]， 也 不 管 最 终 求解 的 是 [速度 ]、 
离 ] 还 是 [时 间 ]， 都 会 匹配 到 同一 模式 并 激活 [距离 ]= eee J 
理解 后 形成 列举 出 数学 方程 的 推理 和 计算 。 


BIIO go zp J se MEAS 
而 解 方程 的 则 由 方程 式 之 间 相 互 转换 的 推理 来 进行 ， 例 如 : 
形式 
T RASOUR SAST] 
二 eRe 
(omast) 
一 ARL 
- RRB 
-MAA Ait 
| Lem Ai 
RASCH Ais 
| 上 对 法 表达 式 计算 角色 Ais 
“ RUBE Ais 
La Ale 
RUHR, As 
L GRBA [Val Att 
二 ASTRA Ate : 
上 计算 角色 Axa PI [this] [时 等 角色 ] maae IE 于 AR RE [ 敌 法 算式 ][ 难 号 ][ 除 法 1.5.0.9.9.0.0.9.1.0.0… 
[omast] 2 义 无 [ 丘 法 算式 ] MSNA SESE) D [UAB] MANT orim) Bis TES ARTIEDA.. 3,5,0,9,9,0,0,9,1,0,0,... 
AMT © SX 中 心 PID [this] ISF «RF Ass TES DEARSUIESIMA.. 1 $ 
+ RASIAT 9 义 主语 pap 1 除法 算式 (等 于 算式 ]( 几 有 ][ 左 旗 表 达 式 ] 。 徐 法 表达 式 计算 多 色 Dini} Ave IES RASTIS A.. 1,5,0.9,9,0,0,0,0,0,0,-. 
© RRRA ox FE PI. [this] IE 于 ] Ate 区 
1- 瞪 法 表达 式 其 有 校 险 OM SIR pap MAMAT (ee) A] ei. bme A 
| Lae ox iE Pap [this] [Value] [Value] <REF Aia 
EAR, IXA PAP 1 除法 表达 式 Ros pL) IIe [ Ate 
| 上 除法 表达 式 计算 角色 1 文 主 酒 PAP [this] itame [属于 | Aim 
2 义 一 守 Pop RMT (is) TIRE e DOR ais 
Um 2 文 一 安 BM... [this] [Value] [Value] <[ 民 于 ] Aiā 
ISSIR ATER RT 1x- PIN- EEDE POF SOTA] 。 计算 角色 DORA a 
b fiamat AxA PA [this] alue] [Value] 4[ 必 于] Ai 
D BRAHA E 4 义 前 回 PAP- TERRAL (REBEL TIA] 计算 角色 mwa Ate 
上 计算 角色 4 SC 前 同 gj [this] maae mame 4 属于 ] Ale 
“xE {this} (ob setst] (eset) 4 大于] an 
DRAIN]  100 义 无 BREAL <> [9548] tant <> [等 价 ] 
T mt 0 XK um arin) 除 <> [等 从 
GEIR IMRAN] 100 义 无 æ 4 从] SUR pez] 连接 正常 GEAMSTIRSIRRA.. 3.5,0,9,9,0,0,0,0.0.0,... 


这 个 乘法 和 除法 的 方程 双向 推理 可 以 用 于 解决 所 有 的 乘除 等 计算 (而 不 限于 解决 [移动 ] 
这 个 事件 )。 方 程 的 具体 转换 计算 就 是 选择 各 个 推理 转换 模式 ， 找 到 将 求解 目标 的 变量 转移 
到 右 端 的 转换 路 径 ， 最 终 完 成 计算 。 


它 计 算 一 样 ， 推 理 的 具体 计算 也 是 网 络 补 全 计算 。 有 基体 来 说 : 首先 进行 模式 匹配 ， 
一 旦 一 个 模式 匹配 成 功 了 一 个 推理 模式 的 一 部 分 , 就 会 触发 以 这 个 推理 模式 作为 基 模 板 来 派 
生 创建 一 个 推理 实例 ,并 补 全 推理 实例 的 男 一 部 分 。( 可 以 参见 [开源 DSM1.0 示例 ] 的 一 个 示 
例 , 对 “飞机 从 北京 以 800 公里 /小 时 飞行 1200 公里 , 需要 多 少时 间 可 以 到 达 ? ”这 个 句子 ， 
行 解析 和 推理 以 及 生成 的 全 过 程 。) 
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al 学 习 和 对 话 | 图 检查 新 知识 国 翻译 国 双语 对 照 学 习 | 解释 和 推导 | 新 会 话 后 台 简略 回答 人 汉 -机 汉 "上 国 动态 输出 


【分 析 】 整 句 匹配 1 个 : 飞机 从 北京 以 80 公 里 每 小 时 飞行 1200 [A] : 飞机 从 北京 以 80 公 里 每 小 时 飞行 1200 公 里 多 久 到 上 海 。 
公里 多 久 到 上 海 。 【机 】: 明白 。 
ETBA 
(主语 ) [飞行 主体 ]:[ 飞 机 ]:[ 交 通 机 器 ] 


(前 状 ) PEE): FER): Sirs] BE) 
(前 状 ) [速度 量 ]:[ 公 里 每 小 时 ]: [速度 量 ] 


(前 定 )[ 数 ]:[1200]:[ 数 ] 
(后 状 )[ 时 间 量 ]:[ 多 少时 间 ]( 时 间 段 ):[ 代 词 ] 
(后 状 )[ 位 置 终 点 ]:[ 上 海 ]:[ 直 辖 市 ] 
(前 同 ) [空间 位 置 ]:[ 位 置 终点 ]:[ 空 间 位 置 ] 
( 必 标 ) [句子 语 用 ]:。:[ 陈 述 句 ] 
GES] 结果 : 

1、80 公 里 每 小 时 乘 多 久 等 于 1200 公 里 【概率 =100%] 
1、1200 公 里 除 80 公 里 每 小 时 等 于 多 久 【概率 =100%] 
1、15 等 于 多 久 【概率 =100%]】 


这 种 语义 化 结构 化 的 推理 还 具有 以 下 特点 : 

抽象 推理 : 整个 推理 的 计算 也 遵循 网 络 派生 原理 , 推理 知识 应 该 依据 最 抽象 的 本 质 基 类 
来 定义 ， 以 实现 最 有 效 的 泛 化 。 

层级 推理 : 大 的 推理 可 以 分 解 为 小 的 多 级 推理 ， 组 合 受 加 实现 复杂 的 推理 任务 。 


双向 推理 :推理 结构 是 双向 描述 的 ， 同 一 个 结构 可 以 实现 双向 的 推理 。 

分 支 推 理 : 推理 同样 具有 概率 ， 就 可 以 对 于 多 分 支 推 理 等 提供 计算 选择 的 依据 。 

逻辑 推理 :可 以 用 [And][OrJ[Not] 将 多 个 原子 推理 结合 起 来 实现 逻辑 推理 。 

规划 和 行动 : 规划 和 行动 等 处 理 围 绕 同样 的 推理 结构 来 扩展 。 规划 就 是 利用 推理 结构 设 
计 出 计划 结构 ， 行 动 则 是 对 这 些 计 划 进 行 执行 。 无论 如 何 ， 以 概念 化 的 结构 为 基础 ， 才 能 
好 地 实现 各 种 推理 、 规 划 、 审 查 、 调 整 、 执 行 任务 ， 满 足 更 强大 智能 系统 的 功能 需求 。 

3.8. 概率 表达 和 计算 

这 里 对 概率 相关 的 两 个 要 点 进行 一 个 说 明 。 

o REMI EYE 

DCN HE VEIN 4a FE SE PRO ATI, BORLA Ae RRE 
次 端的 有 效 方法 。 
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在 计算 过 程 
息 完全 明确 下 来 ， 从 而 改变 计算 的 


， 概 率 已 经 很 高 而 确定 的 信息 ， 可 以 


行 概率 雪 缩 (设置 概率 =1) 而 将 该 信 
标 和 方向 。 不 但 减少 无 效 计 算 获 得 更 高 的 性 能 ， 更 重要 


是 可 以 消除 误差 (不 确定 性 的 传递 和 计算 本 身 有 累积 误差 ， 正 确 的 局 部 替 缩 其 实 有 利于 在 中 


间 过 程 消除 这 种 误差 ! )。 并 且 ， 还 可 以 根据 需要 预 设 概率 吉 
( 某 种 意义 来 说 ， 符 号 主义 和 连接 主义 的 本 质 区 别 之 一 也 体现 在 概率 吉 
， 也 就 是 一 种 
达 信息 (提前 


计算 最 终 都 需要 达到 的 目标 ， 


计算 的 初期 ， 一 个 信息 还 不 能 


Hi: 4 


确 


个 符号 代表 


定时 ， 此 时 


个 确定 的 信息 


AKA | 


AF TS 


明确 的 


是 错误 的 。GPT 并 非 脱 离 符 号 ， 只 是 先 用 


MA 一 


到 最 后 才 进 行 
的 两 个 体系 ， 
MHS, 
符号 计算 和 


ha AP 3 
ae tm NF 


在 县 加 态 ! 时 仍然 可 


WRIA, 最终 仍然 也 要 
两 者 是 相互 转化 的 关系 。 而 结合 了 概率 的 概念 化 结构 可 以 同时 表达 概率 县 加 态 
FE 何 环节 都 可 以 介入 进行 概率 干预 。 可 以 弥补 传统 


on 


经 网 络 各 自 


WERE, EN 


概率 


Fhe TA 


成 确定 性 的 


符号 


PP TAR 


! 因此 ， 


HDA 


a a 


向 量 对 多 个 符号 的 合 加 态 进行 表达 和 计算 , 直 
和 概率 根本 不 是 互 斥 


Ay TA 


符号 


缩 对 系统 进行 更 有 效 的 控制 。 


误差 甚至 


的 缺点 ， 体 现 出 更 灵活 的 技术 优势 ) 


a 


概率 夫 缩 也 是 人 脑 的 基本 思维 方式 , 人 


信息 ， 需 要 尽快 去 确定 甚至 操纵 能 优先 明 


Ay TA 


时 一 定 需要 也 
知 再 计生 
的 处 理 。 如 果 对 于 该 明确 
就 做 不 了 任何 事情 。 


定 可 


的 信 


以 定义 一 利 


rays 


类 观察 和 解释 世界 随时 会 遇 到 未 知 和 不 确定 性 


确 的 信息 ， 


概率 坪 缩 的 理论 在 图 像 识 别 的 场景 下 也 具有 重要 意义。 


旦 将 部 分 信息 
来 表达 )， 就 可 以 转变 关注 点 和 
其 它 未 知 , 这 种 条 件 和 计算 的 转换 持续 不 断 地 进行 , 才 可 以 对 复杂 的 世界 进行 有 效 
息 不 能 尽快 明确 , 面 对 着 不 确定 信息 越 来 越 多 的 “混沌 ”体系 ， 


明确 下 
| 算 推理 的 流向 ， 以 


H 


图 像 的 局 部 相关 性 非常 强 , 一 


一 个 对 象 达 到 概率 二 缩 ， 就 会 带动 周 
像 识别 和 视频 识别 上 ， 甚 至 会 比 语言 处 理 


到 图 
@ 概率 的 简化 计算 


虽然 DCN 依据 集合 和 概率 


本 无 法 给 出 严格 的 概率 定义 和 精确 
的 显著 性 概率 问题 ”这 种 问题 的 正确 结果 的 概率 远 远大 于 
并 不 需要 很 高 的 计算 精度 *， 很 多 时 候 月 


于 仍然 存在 卜 义 的 问题 ,提高 计生 


对 话 中 通过 多 轮 沟通 来 获取 必要 的 信息 。 


对 于 需要 较 高 精度 的 概率 计算 的 任务 


上 整数 型 的 加 减 运 和 
精度 也 并 没有 什么 有 


解决 问题 。 


(例如 机 器 围 


DSM 的 业务 应 用 可 以 随 着 技术 的 提升 逐步 扩展 。 


性 概率 问题 ”， 这 就 应 该 i 
3.9. 技术 应 用 
@ 基本 应 用 


技术 发 展 初 期 ， 在 构建 好 一 定 规模 的 DSM 模型 和 知识 库 ， 并 重点 实现 好 自然 语言 理 


为 DSM 结构 的 能 力 后 ， 以 准确 、 丰 富 、 标 准 的 结构 化 语义 信息 作为 基 而 


开始 支持 各 种 业务 的 实现 。 


py 


1 具体 来 说 ，DSM 可 以 用 概率 、 抽 象 基 类 、 和 外 
2 如 果 需 要 很 高 的 精度 来 区 分 两 个 概率 接近 的 


棋 )， 通 
行 专业 领域 的 独立 建 模 和 实现 ， 然 后 进行 系统 对 接 。 


lk 合 等 方式 来 表示 多 个 概念 的 基 加 态 。 


例如 


AY 


i 


封闭 体系 下 的 非 显 


属于 “ 


的 


来 成 为 已 知 (此 


已 


日 


根 
下 


IAHR RR, ATE. RTE ER 
的 效果 更 为 明显 。 
的 理论 来 设计 ， 但 实际 应 用 场景 下 ， 针 对 一 个 开放 的 体系 
取 值 。 而 现 阶段 AI 首先 需要 解决 的 其 实 是 “开放 体系 


已 结果 的 概率 , 针对 这 些 问题 ， 
就 可 以 很 有 效 地 
昌 ， 需 要 的 是 增加 更 多 的 信息 ， 


而 对 


在 


# 


解 


十 
结果 
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， 那 就 显然 不 是 可 靠 的 唯 


+ 四 
结果 。 


1， 就 可 以 在 多 方面 


紧 
AR 


密 融 合 ， 


语义 解析 : 对 


自然 语言 ; 


语义 整合 : 对 多 轮 对 话 和 
靠 地 支持 复杂 的 各 


任务 分 发 : 


任务 管理 : 


语义 推理 : 


语义 生成 : 


语义 共享 和 交换 : 运用 DSM 语义 


E 务 栈 ; 
HES SOE 
基于 语 
基于 语义 实现 各 入 
根据 高 层级 语义 生成 低层 级 语义 或 自然 语言 。 


结构 ， 可 以 在 DSM、LLM 以 及 其 它 系 统 之 间 进 行 可 


行 语义 解析 
历史 记录 的 语义 信息 


ŽEH, DSM 和 LLM 有 其 各 自 擅 长 的 能 力 ， 运 
成 更 完整 的 技术 方案 来 增 


具体 来 说 ，DSM 可 以 重点 发 挥 以 下 作用 : 


行 整合 


] DSM 的 统一 语义 表达 能 力 可 以 将 两 者 
强 业 务 应 用 的 效果 。 


成 无 上 收 义 的 语义 结构 ， 支 持 业务 开发 ; 
， 形 成 完整 任务 语义 结 


构 ， 并 可 


月 分 析 分 发 给 垂直 模型 和 系统 。 
义 结构 对 当前 任务 和 历史 外 
中 推理 计算 ，i 


EF 务 进行 管理 。 
行 语义 转换 。 


靠 的 信息 传递 和 共享 。 各 种 系统 无 需 再 对 参数 进行 解析 、 消 此 等 处 理 ， 可 以 直接 访问 丰富 的 


语义 信息 实现 精准 的 业务 处 理 。 
语义 检索 : DSM 的 语义 匹配 算法 
要 作用 。 并 可 能 以 深度 语义 索引 为 基础 来 构建 比 向 量 数据 库 更 强大 的 
E 务 对 任务 信息 的 结构 化 表达 有 较 高 要 求 , 各 个 环节 要 和 不 同业 务 
以 通过 DSM 更 有 效 满足 。 


E 


系统 紧密 交互 并 加 入 可 配置 的 控 


EFA 


B 


的 


执行 类 任务 : 执行 类 人 


o 增强 应 用 


技术 发 展 后 期 ， 随 着 模式 和 知识 库 的 扩展 以 及 算法 体系 的 进一步 完善 , 将 在 
的 能 力 ， 实 现 更 强大 的 智能 业务 应 用 。 


3.10. 原型 系统 


我 们 将 2016 年 完成 的 早期 版 本 DSM1.0 进行 了 用 
china/DSM)。 这 个 版 本 的 基本 理论 、 模 型 和 入 
基础 概念 和 结构 的 模型 库 ， 并 


关 


人 员 i 


全 面 提升 智能 化 处 型 


行 分 析 研 究 。 


比 向 量 匹配 更 为 准确 


出 规则 ， 这 些 业 务 需 求 可 


4 


法 已 经 成 型 ， 尤 其 


， 可 以 在 精准 的 信息 检索 中 发 挥 


a 
言 息 库 。 


个 任务 环 


F 源 (https://github.com/chenfeng- 


是 给 出 了 包含 数 千 条 最 关键 


多 个 示例 展示 了 深度 语义 二 
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RR 达 和 计算 的 基本 原理 , 可 供 相 


国 LSK-System 
Ee | Home | Help 
Fle > 编辑 > 选择 > 统计 


ig 视图 4 St Bite 
= 2 Q Bit: |7475 
Save Y 选 页 ， 列 4> 20 gf 


98cb62aa-58f7-406b-9970-5fa8db9a3c18 me that |S... 
Aš IES n. 
Ase 正常 n. 
Ai 正常 n. 
A 端 正常 n. 
参数 50H 结果 SKUS RERE H i i a LEJ Mec 
目标 T. See as Ss Sa eae ae mT) AA ER n 
DW 35,19. 6- > 连接 正常 n. 
B [飞行 其 有 飞行 主体 ] 15,59... G Aim IES n. 
=) BDS 1,5,0,9... T [asia] 200 义 无 局 Aim 正常 n. 
ME San) GS) AA) 1,6,0,9.. i 申 wE FHES] 连接 IES n. 
已 [移动] 拥有 ][ 移 动 部 件 ] 15,029... 由 H 200 义 无 E 医 连接 正常 n. 
5 [移动 ][ 拥 有 ][ 邀 约 者 ] 1,6,0,9.. a 201 义 无 a Sie) 连接 正常 n. 
TO [抽象 移动 ] 15,09... 中 eH 700 % FE s] a ad Ais 正常 n. 
D [抽象 移动 拥有 总 距 高 ] 15,09. oh SH E 100 义 无 X DR] 连接 正常 n. 
D [抽象 移动 拥有 主体 ] 15,09... 中 [移动 ][ 菜 有 ][ 移 动 .… 200 % FE H F 连接 IES n. 
D [抽象 移动 拥有 速度 ] 1,5,0,9... ki EEE EEA] 300 义 无 本 村 ie 连接 正常 n. 
SE 励 作 概念] 15,00. ii EDIGBERE] 301 义 无 i (em) FRAIL... 连接 正常 n. 
PO 邯 作 ][ 拥 有 个 体 量 个 ] 降 低 1,5,0,9. - [飞行 ] 1300 义 无 jis] TEDAR 如 Ai 正常 n. 
PO 七 作 拥有 态度 ] 15,03.. 0 汉 全 部 DUH] [this] .… 连接 正常 n. 
Pio 贡 作 ][ 拥 有 ][ 离 合 宾语 动作 ] 1,5,0,9... T 0 Ix z= a [this] hese = m n. 
E 范 作 拥有 主体 情绪 ] 15,08... fy D Lift [this] 
ba ese 1508. Hi OS ACES IR Uk 
HE 动作 35,19... S [飞行 TE. - [飞行 主体 ] 
PS 动作 拥有 小 品 动 词 ] 1,5,0,9.. G- T a TERIA = = n 
E 范 作 拥有 形态 形容 ] 1509- B [this] i [移动 方式 Ai 正常 n. 
Po 有 动作 拥有 代理 对 象 ] 15,09... e [this] 如 1 移动] 方式 Ai 正常 n. 
o 范 作 ][ 拥 有 ][ 状 语 集合 ] 1,5,0,9.. B [this] a TERIS Ai 正常 n. 
ME Gate] 15,09... a [this] 二 TERIA Ai 正常 n. 
PE RERA E] 1,5,0,9... & [this] i TEDAR Ai IES n. 
Mo RARS Jaha] 1,5,0,9.. Ge [this] td TEDA Ai IES n. 


4. 进一步 的 工作 


DSM 一 直 在 持续 发 展 完善 ， 目 前 已 经 迭代 到 第 三 代 ， 后 边 将 进行 进一步 的 研发 工作 ， 
其 中 有 以 下 重点 目标 : 


4.1. 实现 LLM 读 写 DSM 结构 的 能 力 


近期 ,一 个 非常 有 价值 的 工作 是 : 训练 LLM 以 实现 对 DSM 结构 进行 直接 读 写 的 能 
具体 包括 : 将 自然 语言 解析 输出 为 DSM 结构 的 能 力 ， 以 及 读 取 DSM 结构 生成 自然 语言 的 
能 力 。 以 便于 更 灵活 地 融合 各 种 技术 和 系统 来 实现 智能 业务 和 产品 ， 


4.2. 构建 完备 的 深度 语义 知识 库 


构建 更 完备 的 DSM 基础 知识 库 和 各 领域 知识 库 是 
和 完善 的 过 程 。 


和 其 它 一 些 知识 库 构 建 相 比 ，DSM 知识 库 的 构建 优先 注重 “ 深 ” 而 不 是 “ 广 ”， 更 高 
层 的 知识 的 有 效 性 和 重要 性 更 大 ， 需 要 更 优先 依赖 AI 专家 精心 设计 并 积淀 。 对 此 ， 我 们 在 
前 期 的 研发 工作 中 , 己 经 解决 了 大 量 关键 的 模型 结构 问题 , 构建 起 了 基本 完备 的 高 层 知识 体 
系 ， 为 后 续 工作 打下 了 很 好 的 基础 。 


在 基础 知识 体系 构建 成 型 后 , 进一步 派生 扩展 的 知识 数量 较 多 但 难度 降低 , 可 以 让 各 行 
业 领 域 专家 共同 参与 构建 .并且 , 可 以 运用 LLM 来 加 快 DSM 知识 库 和 数据 库 的 构建 效率 ， 
包括 : LLM 作为 辅助 工具 协助 DSM 进行 知识 发 现 和 加 工 ; 直接 将 LLM 的 隐藏 知识 转换 为 
DSM 结构 化 知识 等 。 而 更 低层 级 的 知识 和 数据 将 完全 实时 地 自动 学 习 和 处 理 。 随 着 整个 模 
型 规模 的 扩大 ， 系 统 的 能 力也 会 产生 “涌现 ”的 效果 。 


构建 这 个 深度 语义 知识 库 可 能 具有 重要 的 社会 价值 , 相 比 黑 盒 型 的 整体 模型 来 说 , 每 一 
条 知识 都 可 以 被 各 行业 共享 和 使 用 ， 并 持续 进行 改进 优化 ， 可 以 作为 实现 更 强大 的 AI 的 一 
个 重要 公共 基础 设施 。 


Urli 


要 的 工作 ， 也 是 一 个 需要 持续 积累 
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为 此 ， 可 以 考虑 构建 一 个 开放 和 平台， 开放 上 述 知 识 模型 、 知 识 库 和 算法 能 力 ， 并 让 业界 
同 参与 完善 深度 语义 知识 库 。 


4.3. 建立 更 强大 的 整体 模型 


更 长 远 的 目标 : 进一步 将 DSM 和 LLM 深度 融合 ， 构 建 一 个 结合 两 者 优势 的 一 体 化 智 
能 模型 。 总 结 一 下 ， 该 模型 的 主要 特点 如 下 : 


@ ”概念 化 、 结 构 化 、 可 解释 的 知识 结构 ; 
@ ”设计 更 优 的 DSM 结构 和 语义 向 量 结构 !; 
@ ”实现 向 量 计 算 和 概念 体系 计算 相 融 合 ; 
@ ”实现 更 完备 高 效 的 基本 算法 体系 ; 

@ ”实现 完备 的 实时 的 知识 学 习 能 

@ ŽEF EDFA FARFA; 


@ “知识 + 数据 "一 体 化 的 统一 平台 ; 


© 实现 更 强 的 推理 、 规 划 、 执 行 能 力 ; 
@ 实现 更 深度 更 全 面 的 智能 代理 系统 ; 


@ 更 高 效 的 计算 和 较 低 的 资源 消耗 ; 


其 中 ， 持 续 的 主动 学 习 是 强大 的 AI 必须 具备 的 核心 能 力 。 超 级 AI 的 学 习 将 不 是 一 次 
性 的 , 而 可 以 持续 不 停 地 主动 寻找 信息 来 学 习 知 识 ， 以 及 对 已 有 知识 体系 进行 自省 并 补 全 和 
调 优 。 在 这 个 体系 中 ,知识 和 数据 的 层级 性 具有 决定 性 的 作用 ,是 系统 判别 信息 的 价值 以 及 
设 定 学 习 目 标的 基础 ， 并 控制 着 每 次 学 习 任务 对 整个 知识 体系 的 调整 和 存储 策略 。 
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